このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240711となっている論文です。

PDF登録状況(公開日: 20240711)

TitleAuthorsAbstract論文公表日・翻訳日
# 社会情報マイニングにおける最先端技術:2024年フランス議会におけるトレンド分析の実践的応用

Brief state of the art in social information mining: Practical application in analysis of trends in French legislative 2024 ( http://arxiv.org/abs/2408.01911v1 )

ライセンス: Link先を確認
Jose A. Garcia Gutierrez, (参考訳) ソーシャルメディア情報の分析は、人工知能(AI)と機械学習(ML)の進歩により、過去10年間で大きな進化を遂げてきた。 本稿では、ソーシャルメディアマイニングにおける最先端技術の概要と、2024年のフランス議会選挙におけるトレンド分析の実践的応用について述べる。 我々は、自然言語処理(NLP)ツールを利用して、AgoraVoxプラットフォームからコメントや反応を抽出し分析することで、世論を測る。 研究によると、マリネ・ル・ペン率いる国民ラリー党はソーシャルメディアに高いレベルの関与を保ち、伝統的政党を上回っている。 この傾向はユーザインタラクションによって裏付けられ、強力なデジタルプレゼンスを示している。 結果は、トランスフォーマーや大規模言語モデル(LLM)のような先進的なAIモデルの有用性を強調している。

The analysis of social media information has undergone significant evolution in the last decade due to advancements in artificial intelligence (AI) and machine learning (ML). This paper provides an overview of the state-of-the-art techniques in social media mining, with a practical application in analyzing trends in the 2024 French legislative elections. We leverage natural language processing (NLP) tools to gauge public opinion by extracting and analyzing comments and reactions from the AgoraVox platform. The study reveals that the National Rally party, led by Marine Le Pen, maintains a high level of engagement on social media, outperforming traditional parties. This trend is corroborated by user interactions, indicating a strong digital presence. The results highlight the utility of advanced AI models, such as transformers and large language models (LLMs), in capturing nuanced public sentiments and predicting political leanings, demonstrating their potential in real-time reputation management and crisis response.
翻訳日:2024-08-19 04:49:14 公開日:2024-07-11
# 境界閉塞相転移におけるキブル・ズールク挙動

Kibble-Zurek Behavior in the Boundary-obstructed Phase Transitions ( http://arxiv.org/abs/2407.18256v1 )

ライセンス: Link先を確認
Menghua Deng, Zhoujian Sun, Fuxiang Li, (参考訳) 本研究では,2次元高次トポロジカル絶縁体の境界閉塞相転移における非断熱力学について検討した。 その結果, クエンチ後の励起数は, クエンチ速度によるゆるいスケーリング挙動を示すことがわかった。 スケーリング指数は、ハイブリダイズされた完全にオープンな境界条件に対して$\alpha=1/2$、周期的な境界条件に対して$\alpha=2$である。 我々は、実次元 $d=2$ の代わりに実次元 $d^{\rm eff}=1$ を適用しなければ、指数 $\alpha=1/2$ はキブル・ズレーク機構によって説明できないと論じる。 比較するために、バルク閉塞相転移と1つの多重臨界点をまたいだ遅いクエンチダイナミクスについても検討し、これは次元が$d=2$のキブル・ズレーク機構に従う。

We study the nonadiabatic dynamics of a two-dimensional higher-order topological insulator when the system is slowly quenched across the boundary-obstructed phase transition, which is characterized by edge band gap closing. We find that the number of excitations produced after the quench exhibits power-law scaling behaviors with the quench rate. Boundary conditions can drastically modify the scaling behaviors: The scaling exponent is found to be $\alpha=1/2$ for hybridized and fully open boundary conditions, and $\alpha=2$ for periodic boundary condition. We argue that the exponent $\alpha=1/2$ cannot be explained by the Kibble-Zurek mechanism unless we adopt an effective dimension $d^{\rm eff}=1$ instead of the real dimension $d=2$. For comparison, we also investigate the slow quench dynamics across the bulk-obstructed phase transitions and a single multicritical point, which obeys the Kibble-Zurek mechanism with dimension $d=2$.
翻訳日:2024-08-05 01:35:56 公開日:2024-07-11
# ベイズ学習における行列変換を用いた分布アルゴリズムの推定

Estimation of Distribution Algorithms with Matrix Transpose in Bayesian Learning ( http://arxiv.org/abs/2407.18257v1 )

ライセンス: Link先を確認
Dae-Won Kim, Song Ko, Bo-Yeong Kang, (参考訳) 分散アルゴリズム (EDAs) は進化的最適化アルゴリズムの新たな分野であり、様々な研究領域において効率的かつ効率的な最適化性能を提供する。 近年の研究では、変異演算子を標準EDAに応用し、個体数の多様性を高める新しいEDAが提案されている。 ベイズ構造学習に特化して設計された新しい突然変異演算子,行列変換を行い,ベイズ構造学習におけるその性能を評価する。 その結果, トランスポーション変異を持つEDAは従来のEDAよりも著しく優れた性能を示した。

Estimation of distribution algorithms (EDAs) constitute a new branch of evolutionary optimization algorithms, providing effective and efficient optimization performance in a variety of research areas. Recent studies have proposed new EDAs that employ mutation operators in standard EDAs to increase the population diversity. We present a new mutation operator, a matrix transpose, specifically designed for Bayesian structure learning, and we evaluate its performance in Bayesian structure learning. The results indicate that EDAs with transpose mutation give markedly better performance than conventional EDAs.
翻訳日:2024-08-05 01:35:56 公開日:2024-07-11
# 2024年における視覚発生の諸問題

Several questions of visual generation in 2024 ( http://arxiv.org/abs/2407.18290v1 )

ライセンス: Link先を確認
Shuyang Gu, (参考訳) 本稿では,新しいアルゴリズムを提案するのではなく,著者の個人的理解に基づく視覚生成の諸問題について概説する。 これらの問題の核心は、視覚信号を分解する方法にあり、他のすべての問題は、この中心的な問題と密接に関連しており、信号分解に対する不適切なアプローチから起因している。 本稿では,視覚信号分解の重要性に研究者の注意を向ける。

This paper does not propose any new algorithms but instead outlines various problems in the field of visual generation based on the author's personal understanding. The core of these problems lies in how to decompose visual signals, with all other issues being closely related to this central problem and stemming from unsuitable approaches to signal decomposition. This paper aims to draw researchers' attention to the significance of Visual Signal Decomposition.
翻訳日:2024-08-05 01:35:56 公開日:2024-07-11
# WalkTheDog: フェーズマニフォールドによるクロスモルフォロジーモーションアライメント

WalkTheDog: Cross-Morphology Motion Alignment via Phase Manifolds ( http://arxiv.org/abs/2407.18946v1 )

ライセンス: Link先を確認
Peizhuo Li, Sebastian Starke, Yuting Ye, Olga Sorkine-Hornung, (参考訳) 本稿では,文字の形態や骨格構造とは無関係に,動きデータセットの周期構造と意味を理解するための新しいアプローチを提案する。 過度にスパースな高次元ラテントを用いた既存の方法とは異なり、複数の閉曲線からなる位相多様体を提案し、それぞれ遅延振幅に対応する。 提案するベクトル量子化周期型オートエンコーダを用いて,人間や犬などの複数の文字に対する共有位相多様体を,何の監督も受けずに学習する。 これは、離散構造と浅いネットワークをボトルネックとして利用することにより達成され、意味的に類似した運動が多様体の同じ曲線にクラスタ化され、同じ成分内の運動が位相変数によって時間的に整列される。 改良された動きマッチングフレームワークと組み合わせて、運動検索、転送、スタイリングを含む複数のアプリケーションにおいて、時間的・意味的アライメントの多様体の能力を実証する。 この論文のコードと事前訓練されたモデルはhttps://peizhuoli.github.io/walkthedog.comで公開されている。

We present a new approach for understanding the periodicity structure and semantics of motion datasets, independently of the morphology and skeletal structure of characters. Unlike existing methods using an overly sparse high-dimensional latent, we propose a phase manifold consisting of multiple closed curves, each corresponding to a latent amplitude. With our proposed vector quantized periodic autoencoder, we learn a shared phase manifold for multiple characters, such as a human and a dog, without any supervision. This is achieved by exploiting the discrete structure and a shallow network as bottlenecks, such that semantically similar motions are clustered into the same curve of the manifold, and the motions within the same component are aligned temporally by the phase variable. In combination with an improved motion matching framework, we demonstrate the manifold's capability of timing and semantics alignment in several applications, including motion retrieval, transfer and stylization. Code and pre-trained models for this paper are available at https://peizhuoli.github.io/walkthedog.
翻訳日:2024-08-05 01:16:12 公開日:2024-07-11
# 近似三重項を用いた実時間結合クラスタ理論

Real-Time Coupled Cluster Theory with Approximate Triples ( http://arxiv.org/abs/2407.18947v1 )

ライセンス: Link先を確認
Zhe Wang, Håkon Emil Kristiansen, Thomas Bondo Pedersen, T. Daniel Crawford, (参考訳) 近年,リアルタイム (RT) 手法の定式化が進みつつあるが, 二重励起以外は議論されていない。 本稿では,高励起レベルの可能性を探るため,実時間結合クラスタシングル,ダブルスおよび近似トリプル(CC3)法の実装について紹介する。 CC3法は、動的特性を計算し、応答理論と組み合わせることの利点でよく知られている。 システムと応用分野の相互作用を扱うための適格な候補であり、したがってRTの実装に適している。 導出と実装は、周波数依存特性の計算への応用に続いて初めて実証される。 三重項の項が計算され、既存のCCSD方程式に加算され、この方法が正式に$N^{7}$スケーリングとなる。 グラフィクス処理ユニット(GPU)の高速化実装を利用して計算コストを削減する。 GPUの実装は、水クラスターテストケースで最大17倍の速度で計算を高速化できることが確認されている。 さらに、単精度算術を用い、従来の倍精度算術と比較する。 偏光率と$G'$テンソルの結果には有意な差は見られなかったが、第1の偏光率に対する高い比率の誤差が観察された。 線形応答(LR)CC3の結果と比較して、RT-CC3偏光率とRT-CC3第1偏光率の誤差は、それぞれ0.1%以下で、それぞれ$H_2O$/cc-pVDZテストケースで1%以下である。 さらに、RT-CC3とRT-CCSDと時間依存の非直交軌道最適化結合クラスタダブルス(TDNOCCD)を比較して、RT-CC3の性能と軌道最適化効果を10電子系群を用いて検討する偏光性計算の議論を含む。

The formalism of real-time (RT) methods has been well-established during recent years, while no inclusion beyond the double excitation has been discussed. In this article, we introduce an implementation of real-time coupled cluster singles, doubles and approximate triples (CC3) method to explore the potential of a high excitation level. The CC3 method is well-known for its advantages in calculating dynamic properties and combining with the response theory. It is a well-qualified candidate for handling the interaction between the system and the applied field, and therefore suitable for a RT implementation. The derivation and implementation are first demonstrated following applications on calculating frequency-dependent properties. Terms with triples are calculated and added upon the existing CCSD equations, giving the method a formally $N^{7}$ scaling. The Graphics Processing Unit (GPU) accelerated implementation is utilized to reduce the computational cost. It is been verified that the GPU implementation can speed up the calculation by up to a factor of 17 for water cluster test cases. Additionally, the single-precision arithmetic is used and compared to the conventional double-precision arithmetic. No significant difference is found in the polarizabilities and $G'$ tensor results, but a higher percentage error for the first hyperpolarizabilities is observed. Compared to the linear response (LR) CC3 results, the percentage errors of RT-CC3 polarizabilities and RT-CC3 first hyperpolarizabilities are under 0.1% and 1%, respectively for the $H_2O$/cc-pVDZ test case. Furthermore, a discussion on the calculation of polarizabilities is included, which compares RT-CC3 with RT-CCSD and time-dependent nonorthogonal orbital-optimized coupled cluster doubles (TDNOCCD), in order to examine the performance of RT-CC3 and the orbital-optimization effect using a group of ten-electron systems.
翻訳日:2024-08-05 01:16:12 公開日:2024-07-11
# AIR-Bench 2024: 規制と政策のリスクカテゴリに基づく安全ベンチマーク

AIR-Bench 2024: A Safety Benchmark Based on Risk Categories from Regulations and Policies ( http://arxiv.org/abs/2407.17436v1 )

ライセンス: Link先を確認
Yi Zeng, Yu Yang, Andy Zhou, Jeffrey Ziwei Tan, Yuheng Tu, Yifan Mai, Kevin Klyman, Minzhou Pan, Ruoxi Jia, Dawn Song, Percy Liang, Bo Li, (参考訳) ファンデーションモデル(FM)は社会的利益を提供するが、リスクを増幅する。 政府、企業、研究者は、規制の枠組み、許容可能な使用ポリシー、そしてそれに対応する安全ベンチマークを提案している。 しかし、既存の公的なベンチマークでは、しばしば過去の文献、直観、常識に基づいて安全カテゴリーを定義しており、最近の規制や政策で特定されるリスクに対する不整合したカテゴリのセットとなり、これらのベンチマーク間でFMを評価し比較することは困難である。 このギャップを埋めるために、私たちはAIR-Bench 2024を紹介します。これは、AIリスクスタディであるAIR 2024に根ざした規制ベースの安全カテゴリに従って、新しい政府の規制と企業のポリシーに沿った、最初のAI安全ベンチマークです。 AIR 2024は8つの政府規制と16の企業政策を4階層の安全分類に分解し、314の粒度のリスクカテゴリーを最低階層に分類する。 AIR-Bench 2024には、これらのカテゴリにまたがる5,694の多様なプロンプトが含まれている。 AIR-Bench 2024上での言語モデルの評価を行い,その安全性に関する知見を明らかにした。 公的なベンチマークと実践的なAIリスクのギャップを埋めることによって、AIR-Bench 2024は、管轄区域間でモデルの安全性を評価し、より安全で責任のあるAIシステムの開発を促進する基盤を提供する。

Foundation models (FMs) provide societal benefits but also amplify risks. Governments, companies, and researchers have proposed regulatory frameworks, acceptable use policies, and safety benchmarks in response. However, existing public benchmarks often define safety categories based on previous literature, intuitions, or common sense, leading to disjointed sets of categories for risks specified in recent regulations and policies, which makes it challenging to evaluate and compare FMs across these benchmarks. To bridge this gap, we introduce AIR-Bench 2024, the first AI safety benchmark aligned with emerging government regulations and company policies, following the regulation-based safety categories grounded in our AI risks study, AIR 2024. AIR 2024 decomposes 8 government regulations and 16 company policies into a four-tiered safety taxonomy with 314 granular risk categories in the lowest tier. AIR-Bench 2024 contains 5,694 diverse prompts spanning these categories, with manual curation and human auditing to ensure quality. We evaluate leading language models on AIR-Bench 2024, uncovering insights into their alignment with specified safety concerns. By bridging the gap between public benchmarks and practical AI risks, AIR-Bench 2024 provides a foundation for assessing model safety across jurisdictions, fostering the development of safer and more responsible AI systems.
翻訳日:2024-07-28 18:09:38 公開日:2024-07-11
# NinjaLLM: Amazon SageMakerとAWS TrainiumとInferentia2を使用した高速でスケーラブルで費用対効果の高いRAG

NinjaLLM: Fast, Scalable and Cost-effective RAG using Amazon SageMaker and AWS Trainium and Inferentia2 ( http://arxiv.org/abs/2407.12057v1 )

ライセンス: Link先を確認
Tengfei Xue, Xuefeng Li, Roman Smirnov, Tahir Azim, Arash Sadrieh, Babak Pahlavan, (参考訳) 検索拡張生成(RAG)技術は、現在、会話形式で情報を検索し提示するために広く使われている。 本稿では,AWS TrainiumとInferentia2のAIチップをSageMaker経由でホストする大規模言語モデル(LLM)に焦点を当て,従来のRAG技術の一連の拡張について述べる。 これらのチップは、その弾力性、手頃さ、AI計算タスクの効率的なパフォーマンスによって特徴付けられる。 この作業は、これらのチップへのデプロイを可能にすることに加えて、ツールの使用方法の改善、引用機能の追加、およびコンテキストバイアスによる幻覚や安全でない応答のリスクを軽減することを目的としている。 我々はRAGシステムの性能をNatural QuestionsとHotPotQAデータセットでベンチマークし、それぞれ62%と59%の精度を達成し、DBRXやMixtral Instructといった他のモデルを上回った。

Retrieval-augmented generation (RAG) techniques are widely used today to retrieve and present information in a conversational format. This paper presents a set of enhancements to traditional RAG techniques, focusing on large language models (LLMs) fine-tuned and hosted on AWS Trainium and Inferentia2 AI chips via SageMaker. These chips are characterized by their elasticity, affordability, and efficient performance for AI compute tasks. Besides enabling deployment on these chips, this work aims to improve tool usage, add citation capabilities, and mitigate the risks of hallucinations and unsafe responses due to context bias. We benchmark our RAG system's performance on the Natural Questions and HotPotQA datasets, achieving an accuracy of 62% and 59% respectively, exceeding other models such as DBRX and Mixtral Instruct.
翻訳日:2024-07-18 21:28:12 公開日:2024-07-11
# 光格子における大規模原子配列の高忠実度検出

High-fidelity detection of large-scale atom arrays in an optical lattice ( http://arxiv.org/abs/2309.04717v6 )

ライセンス: Link先を確認
Renhao Tao, Maximilian Ammenwerth, Flavien Gyger, Immanuel Bloch, Johannes Zeiher, (参考訳) 中立原子に基づく量子シミュレーションの最近の進歩は、高分解能で単原子感度のイメージング技術から大きく恩恵を受けている。 光学格子や光ツイーザにおける原子の局所的な検出を実現するために、様々なアプローチが開発されている。 アルカリ-アース原子やアルカリ-アース原子の場合、狭い光学遷移の存在は、冷却機構がトラップ電位の微分光学レベルシフトを空間的に解決する能力から生じる新しいタイプのシホス冷却を行う可能性を開く。 これまでのところ、地上状態のトラップ深さが冷却に関わる励起状態のそれを超える「反発型シシフス」構成で高忠実な画像が達成できるかどうかという未解決の問題があった。 ここでは,高忠実度 (99.971(1)\%$) と高生存率 (99.80(5)\%$) のシィフス冷却によるストロンチウム原子のイメージングを示す。 最大399ドルのツイーザーを持つ大規模ツイーザーアレイの原子のピンニング電位として光学格子を用い、繰り返し、高忠実な格子-ツイーザー-格子転移を示す。 さらに、MOTから直接約10000の原子で格子をロードし、生存確率と分類忠実度を99.2\%$より良く組み合わせた10000ドルの格子サイトをスケーラブルに撮像する。 この格子は将来,光ツイーザアレイの連続的な補充のための局所的にアドレス化可能でソート可能な貯水池として機能する。

Recent advances in quantum simulation based on neutral atoms have largely benefited from high-resolution, single-atom sensitive imaging techniques. A variety of approaches have been developed to achieve such local detection of atoms in optical lattices or optical tweezers. For alkaline-earth and alkaline-earth-like atoms, the presence of narrow optical transitions opens up the possibility of performing novel types of Sisyphus cooling, where the cooling mechanism originates from the capability to spatially resolve the differential optical level shifts in the trap potential. Up to now, it has been an open question whether high-fidelity imaging could be achieved in a "repulsive Sisyphus" configuration, where the trap depth of the ground state exceeds that of the excited state involved in cooling. Here, we demonstrate high-fidelity ($99.971(1)\%$) and high-survival ($99.80(5)\%$) imaging of strontium atoms using repulsive Sisyphus cooling. We use an optical lattice as a pinning potential for atoms in a large-scale tweezer array with up to $399$ tweezers and show repeated, high-fidelity lattice-tweezer-lattice transfers. We furthermore demonstrate loading the lattice with approximately 10000 atoms directly from the MOT and scalable imaging over $>10000$ lattice sites with a combined survival probability and classification fidelity better than $99.2\%$. Our lattice thus serves as a locally addressable and sortable reservoir for continuous refilling of optical tweezer arrays in the future.
翻訳日:2024-07-17 04:58:50 公開日:2024-07-11
# 視覚受容場に対する一般化ガウス微分モデルに基づく時空間受容場に対する幾何学的画像変換の下での合同共分散の統一理論

Unified theory for joint covariance properties under geometric image transformations for spatio-temporal receptive fields according to the generalized Gaussian derivative model for visual receptive fields ( http://arxiv.org/abs/2311.10543v7 )

ライセンス: Link先を確認
Tony Lindeberg, (参考訳) 自然画像変換が受容野反応に与える影響は、コンピュータビジョンと生物学的ビジョンにおける視覚操作のモデル化に不可欠である。 この点において、視覚階層の最初期の層における幾何学的画像変換に関する共分散特性は、ロバストな画像操作を表現し、より高いレベルで不変な視覚操作を定式化するために不可欠である。 本稿では,空間的スケーリング変換,空間的アフィン変換,ガリレオ変換,時間的スケーリング変換の合成の下で,時空間スムーズな画像データに適用した時空間微分作用素を用いて,時空間受容場に対する結合共分散特性の集合を定義し,その証明を行う。 具体的には、合成時空間画像変換の下での時空間受入場からの出力と一致するように、受入場のパラメータをどのように変換する必要があるかを示す。 この目的のために、スケール正規化微分の概念を、アフィンガウス核との空間的滑らか化に基づいて計算されるアフィン正規化微分に根本的に拡張し、アフィン群とそれらの重要な部分群に対する結果のアフィン正規化微分の共分散特性を解析する。 幾何学的解析により、導出した関節共分散特性が、異なる視点から局所的な表面パッチを観察、移動させたり、局所的に線形化された視点や射影変換で観察したり、類似の時空間事象の異なる視点でより早いか遅いかのどちらかで発生する時空間事象の異なるインスタンスを観察する際に、時空間の知覚応答を関連づけたり、一致させたりすることができることを示す。

The influence of natural image transformations on receptive field responses is crucial for modelling visual operations in computer vision and biological vision. In this regard, covariance properties with respect to geometric image transformations in the earliest layers of the visual hierarchy are essential for expressing robust image operations, and for formulating invariant visual operations at higher levels. This paper defines and proves a set of joint covariance properties for spatio-temporal receptive fields in terms of spatio-temporal derivative operators applied to spatio-temporally smoothed image data under compositions of spatial scaling transformations, spatial affine transformations, Galilean transformations and temporal scaling transformations. Specifically, the derived relations show how the parameters of the receptive fields need to be transformed, in order to match the output from spatio-temporal receptive fields under composed spatio-temporal image transformations. For this purpose, we also fundamentally extend the notion of scale-normalized derivatives to affine-normalized derivatives, that are computed based on spatial smoothing with affine Gaussian kernels, and analyze the covariance properties of the resulting affine-normalized derivatives for the affine group as well as for important subgroups thereof. We conclude with a geometric analysis, showing how the derived joint covariance properties make it possible to relate or match spatio-temporal receptive field responses, when observing, possibly moving, local surface patches from different views, under locally linearized perspective or projective transformations, as well as when observing different instances of spatio-temporal events, that may occur either faster or slower between different views of similar spatio-temporal events.
翻訳日:2024-07-17 02:54:11 公開日:2024-07-11
# ホーキング放射とランダウアー原理

Hawking radiation and the Landauer Principle ( http://arxiv.org/abs/2407.08777v1 )

ライセンス: Link先を確認
Marina Cortês, Andrew R Liddle, (参考訳) ホーキングブラックホールの蒸発がランダウアーの熱力学の原理を飽和させることを示す。 以上の結果から,ホーキング蒸発時にブラックホールが経験した情報損失は可能な限り効率的に発生することが示唆された。 また, フラクタル事象水平線の現象論的実現としてのバローエントロピーの場合には, ランダウアー原理(Landauer Principle)がブラックホール温度の異なる選択肢に影響を及ぼす。 我々の知る限り、この研究は2つの結果を同じプロセスの表現として初めて同定したものである。

We show that Hawking black-hole evaporation saturates the Landauer Principle of information thermodynamics. Our result implies that information loss experienced by a black hole during Hawking evaporation takes place as efficiently as possible. We also extend the analysis to the case of Barrow entropy as a phenomenological realization of a fractal event horizon, where the Landauer Principle informs amongst different options for the black hole temperature. To our knowledge, this work is the first identification of the two results as expressions of the same process.
翻訳日:2024-07-16 21:47:52 公開日:2024-07-11
# AGI に到達したか? ChatGPT, Claude, Gemini と人間リテラシーと教育ベンチマークの比較

Have We Reached AGI? Comparing ChatGPT, Claude, and Gemini to Human Literacy and Education Benchmarks ( http://arxiv.org/abs/2407.09573v1 )

ライセンス: Link先を確認
Mfon Akpan, (参考訳) AIの最近の進歩、特にChatGPT、Claude、Geminiのような大きな言語モデル(LLM)は、人工知能(AGI)に近づいたという疑問を引き起こしている。 この研究は、米国国勢調査局と技術レポートのデータを用いて、教育ベンチマークにおけるLCMのパフォーマンスとアメリカの平均的な教育成績と識字率を比較した。 その結果、LLMは、学部生の知識や高度な読書理解といったタスクにおいて、人間のベンチマークを著しく上回り、AGIへのかなりの進歩を示していることがわかった。 しかし、真のAGIはより広範な認知的評価を必要とする。 この研究はAI開発、教育、社会への影響を強調し、継続的な研究と倫理的考察の必要性を強調している。

Recent advancements in AI, particularly in large language models (LLMs) like ChatGPT, Claude, and Gemini, have prompted questions about their proximity to Artificial General Intelligence (AGI). This study compares LLM performance on educational benchmarks with Americans' average educational attainment and literacy levels, using data from the U.S. Census Bureau and technical reports. Results show that LLMs significantly outperform human benchmarks in tasks such as undergraduate knowledge and advanced reading comprehension, indicating substantial progress toward AGI. However, true AGI requires broader cognitive assessments. The study highlights the implications for AI development, education, and societal impact, emphasizing the need for ongoing research and ethical considerations.
翻訳日:2024-07-16 21:38:05 公開日:2024-07-11
# 各種アグリゲーション設計における太陽電池の初期状態に対する感度

Sensitivity of Photovoltaic Cells Efficiency to Initial Conditions in Various Aggregation Designs ( http://arxiv.org/abs/2407.09574v1 )

ライセンス: Link先を確認
Baharak Mohamad Jafari Navadel, Esfandyar Faizi, Baharam Ahansaz, Jaber Jahanbin Sardroodi, (参考訳) 自然は、太陽エネルギー回収装置の効率を高めるために、既に量子力学的性質を利用していると考えられている。 したがって、これらの装置の動作は、このプロセスにおいて量子コヒーレンスが重要な役割を果たすナノスコピックな量子力学系の巧妙な設計によって強化することができる。 本研究では,初期状態の異なる量子コヒーレンスとアグリゲーション効果の鍵となる役割を集約したドナー・アクセプタ2レベルトラップ双極子モデルを開発した。 解析の結果, 最適空間凝集の影響下で, 特定の初期状態に設定することで, 不要な排出ガスの加熱が達成できることが判明した。 興味深いことに、アグリゲーションによって引き起こされる特性とバンドギャップ工学の量子効果を特徴付けることは、古典的手法と比較して最大で35.87%のパワー向上を達成できる。 この奨励的な傾向は、自然を模倣する太陽光発電装置の設計に有望な新しい側面を示唆している。

It is thought that nature already exploits quantum mechanical properties to increase the efficiency of solar energy harvesting devices. So, the operation of these devices can be enhanced by clever design of a nanoscopic, quantum mechanical system where the quantum coherence plays a crucial role in this process. In this investigation, we develop a donor-acceptor two-level trap dipole model converging the key role of quantum coherence and aggregation effects along with different initial states. Our analysis reveals that quenching unwanted emissions is achievable by preparing the system in specific initial state under the effect of optimal spatial aggregation. Interestingly it is observed that characterizing aggregation-induced properties and quantum effects of bandgap engineering can increase the power enhancement up to 35.87% compared with classical counterparts. This encouraging trend suggests a promising novel design aspect of nature-mimicking photovoltaic devices.
翻訳日:2024-07-16 21:38:05 公開日:2024-07-11
# ニューラルバイパルタイトマッチング

Neural Bipartite Matching ( http://arxiv.org/abs/2005.11304v4 )

ライセンス: Link先を確認
Dobrik Georgiev, Pietro Liò, (参考訳) グラフニューラルネットワーク(GNN)は、アルゴリズムの分野における学習の応用を見出した。 しかしながら、既存の研究(ソート、Breadth-First検索、最短経路探索など)によって選択されるアルゴリズムは、通常標準のGNNアーキテクチャと完全に一致している。 この報告では、フロー問題に還元することで最大二分法マッチングを見つけ、Ford-Fulkersonを用いて最大フローを見つけるなど、複雑なアルゴリズムにニューラル実行がどのように適用されるかを説明する。 これは、単一のGNNから生成された機能のみに基づいて、ニューラル実行によって実現される。 評価の結果,ネットワークがほぼ100%の時間で最適なマッチングを達成できることが示唆された。

Graph neural networks (GNNs) have found application for learning in the space of algorithms. However, the algorithms chosen by existing research (sorting, Breadth-First search, shortest path finding, etc.) usually align perfectly with a standard GNN architecture. This report describes how neural execution is applied to a complex algorithm, such as finding maximum bipartite matching by reducing it to a flow problem and using Ford-Fulkerson to find the maximum flow. This is achieved via neural execution based only on features generated from a single GNN. The evaluation shows strongly generalising results with the network achieving optimal matching almost 100% of the time.
翻訳日:2024-07-16 06:11:12 公開日:2024-07-11
# 境界サイズのニューラルネットワークによるクナプサック問題の解法

Provably Good Solutions to the Knapsack Problem via Neural Networks of Bounded Size ( http://arxiv.org/abs/2005.14105v3 )

ライセンス: Link先を確認
Christoph Hertrich, Martin Skutella, (参考訳) ニューラルネットワークの性能に関する満足度と厳密な数学的理解の開発は、人工知能の大きな課題である。 そこで本研究では,従来のNP-hard Knapsack問題(NP-hard Knapsack problem)を例に,ニューラルネットワークの表現力について検討する。 我々の主な貢献は、Knapsackインスタンスの各項目に反復的に適用される整列線形ユニットを持つリカレントニューラルネットワーク(RNN)のクラスであり、それによって最適または証明可能な優れた解値を計算する。 最適クナプサック解を求めるには, 最適クナプサック解の利得に依存する深さ4, 幅のRNNが十分であることを示す。 また、RNNのサイズと計算されたKnapsackソリューションの品質のトレードオフも証明する:$n$アイテム、深さ5のRNN、幅$w$からなるKnapsackインスタンスは、少なくとも1-\mathcal{O}(n^2/\sqrt{w})の値の解を計算する。 この結果は、クナップサック問題における古典的動的プログラミングの定式化と、クナップサック問題に対する多項式時間近似スキームの中核である利益値の慎重なラウンド化に基づいて構築される。 慎重に計算された研究は、理論的なサイズ境界を定性的に支持する。 最後に, 様々な最短経路問題, 長期共通列問題, トラベリングセールスパーソン問題など, 動的プログラミング解法を許容する多くの組合せ最適化問題に対して, 結果の一般化が可能であることを指摘する。

The development of a satisfying and rigorous mathematical understanding of the performance of neural networks is a major challenge in artificial intelligence. Against this background, we study the expressive power of neural networks through the example of the classical NP-hard Knapsack Problem. Our main contribution is a class of recurrent neural networks (RNNs) with rectified linear units that are iteratively applied to each item of a Knapsack instance and thereby compute optimal or provably good solution values. We show that an RNN of depth four and width depending quadratically on the profit of an optimum Knapsack solution is sufficient to find optimum Knapsack solutions. We also prove the following tradeoff between the size of an RNN and the quality of the computed Knapsack solution: for Knapsack instances consisting of $n$ items, an RNN of depth five and width $w$ computes a solution of value at least $1-\mathcal{O}(n^2/\sqrt{w})$ times the optimum solution value. Our results build upon a classical dynamic programming formulation of the Knapsack Problem as well as a careful rounding of profit values that are also at the core of the well-known fully polynomial-time approximation scheme for the Knapsack Problem. A carefully conducted computational study qualitatively supports our theoretical size bounds. Finally, we point out that our results can be generalized to many other combinatorial optimization problems that admit dynamic programming solution methods, such as various Shortest Path Problems, the Longest Common Subsequence Problem, and the Traveling Salesperson Problem.
翻訳日:2024-07-16 06:11:12 公開日:2024-07-11
# SynthMorph を用いた解剖学的認識と獲得非依存関節登録

Anatomy-aware and acquisition-agnostic joint registration with SynthMorph ( http://arxiv.org/abs/2301.11329v4 )

ライセンス: Link先を確認
Malte Hoffmann, Andrew Hoopes, Douglas N. Greve, Bruce Fischl, Adrian V. Dalca, (参考訳) アフィン画像登録は、医用画像解析の基盤となっている。 古典的アルゴリズムは優れた精度を達成できるが、各画像対に対して時間を要する最適化を解く。 ディープラーニング(DL)メソッドは、画像対を出力変換にマッピングする関数を学ぶ。 関数の評価は速いが、大きな変換をキャプチャすることは困難であり、テストイメージの特徴が解像度などのトレーニング領域からシフトした場合、ネットワークは苦労する傾向がある。 ほとんどのアフィン法は、ユーザが調整したい解剖学に依存しない。つまり、アルゴリズムが画像のすべての構造を考慮すれば、登録は不正確なものになる。 われわれはこれらの欠点をSynthMorphで解決する。これは高速で対称で微分型で使いやすいDLツールで、前処理なしで任意の脳画像の関節アフィン変形性登録を行うことができる。 まず,ラベルマップから多種多様な画像が合成されたネットワークを学習し,学習時に見つからない画像に対して頑健な性能を実現する。 次に,選択された解剖学的ラベルの空間的重なりを最適化する。 これにより、ネットワークは無関係な構造から関心の解剖学を区別することができ、解剖学固有の登録に影響を及ぼす可能性のあるコンテンツを除外する前処理の必要性を排除できる。 第3に、アフィンモデルと変形可能なハイパーネットワークを組み合わせることで、ユーザが特定のデータに対して、登録時に、古典的手法で要求される時間のごく一部で最適な変形場正規性を選択することができる。 我々は、競合するアーキテクチャがアフィン変換を学習し、最先端の登録ツールを、非常に多様なニューロイメージングデータ集合で比較し、現実世界のメソッドの振る舞いを真に捉えることを目的として分析する。 SynthMorphは高い精度を示し、脳MRIの登録のための単一の完全なエンドツーエンドソリューションとしてhttps://w3id.org/synthmorphで利用可能である。

Affine image registration is a cornerstone of medical image analysis. While classical algorithms can achieve excellent accuracy, they solve a time-consuming optimization for every image pair. Deep-learning (DL) methods learn a function that maps an image pair to an output transform. Evaluating the function is fast, but capturing large transforms can be challenging, and networks tend to struggle if a test-image characteristic shifts from the training domain, such as resolution. Most affine methods are agnostic to the anatomy the user wishes to align, meaning the registration will be inaccurate if algorithms consider all structures in the image. We address these shortcomings with SynthMorph, a fast, symmetric, diffeomorphic, and easy-to-use DL tool for joint affine-deformable registration of any brain image without preprocessing. First, we leverage a strategy that trains networks with widely varying images synthesized from label maps, yielding robust performance for image types unseen at training. Second, we optimize the spatial overlap of select anatomical labels. This enables networks to distinguish anatomy of interest from irrelevant structures, removing the need for preprocessing that excludes content that may impinge on anatomy-specific registration. Third, we combine the affine model with a deformable hypernetwork that lets users choose the optimal deformation-field regularity for their specific data, at registration time, in a fraction of the time required by classical methods. We analyze how competing architectures learn affine transforms and compare state-of-the-art registration tools across an extremely diverse set of neuroimaging data, aiming to truly capture the behavior of methods in the real world. SynthMorph demonstrates high accuracy and is available at https://w3id.org/synthmorph, as a single complete end-to-end solution for registration of brain MRI.
翻訳日:2024-07-16 06:06:24 公開日:2024-07-11
# WildRefer: マルチモーダルビジュアルデータと自然言語を用いた大規模動的シーンにおける3次元オブジェクトのローカライゼーション

WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language ( http://arxiv.org/abs/2304.05645v2 )

ライセンス: Link先を確認
Zhenxiang Lin, Xidong Peng, Peishan Cong, Ge Zheng, Yujin Sun, Yuenan Hou, Xinge Zhu, Sibei Yang, Yuexin Ma, (参考訳) 本稿では,2次元画像や3次元LiDAR点雲を含む,自然言語記述とオンラインキャプチャによるマルチモーダル視覚データに基づく大規模動的シーンにおける3次元視覚接地作業について紹介する。 本研究では、画像中のリッチな外観情報、ポイントクラウドにおける位置と幾何学的手がかり、および言語記述のセマンティック知識をフル活用して、WildReferと呼ばれる新しい手法を提案する。 さらに,STReferとLifeReferという2つの新しいデータセットを提案する。 われわれのデータセットは、野生の3Dビジュアルグラウンドの研究にとって重要なものであり、自動運転とサービスロボットの開発を促進する大きな可能性を秘めている。 大規模な実験とアブレーション実験により,提案手法が提案したベンチマークの最先端性能を達成できることが実証された。 コードはhttps://github.com/4DVLab/WildRefer.comで提供されている。

We introduce the task of 3D visual grounding in large-scale dynamic scenes based on natural linguistic descriptions and online captured multi-modal visual data, including 2D images and 3D LiDAR point clouds. We present a novel method, dubbed WildRefer, for this task by fully utilizing the rich appearance information in images, the position and geometric clues in point cloud as well as the semantic knowledge of language descriptions. Besides, we propose two novel datasets, i.e., STRefer and LifeRefer, which focus on large-scale human-centric daily-life scenarios accompanied with abundant 3D object and natural language annotations. Our datasets are significant for the research of 3D visual grounding in the wild and has huge potential to boost the development of autonomous driving and service robots. Extensive experiments and ablation studies demonstrate that our method achieves state-of-the-art performance on the proposed benchmarks. The code is provided in https://github.com/4DVLab/WildRefer.
翻訳日:2024-07-16 06:06:24 公開日:2024-07-11
# ネットワーク量子ステアリングは、シードランダム性のないランダム性証明を可能にする

Network quantum steering enables randomness certification without seed randomness ( http://arxiv.org/abs/2307.08797v3 )

ライセンス: Link先を確認
Shubhayan Sarkar, (参考訳) 複数のソースを持つ量子ネットワークは、入力なしで量子非局所性の観測を可能にする。 したがって、複数の量子源にアクセスする場合、測定の不整合性は量子非局所性の観測には必要ではない。 ここでは、任意の形の量子非局所性を観測できる入力のない最小シナリオについて検討する。 古典的に相関する可能性のある2つのソースを持つ2つのパーティでさえ、あるパーティが信頼されている場合、すなわち、固定された既知の測定を行う場合、入力のないネットワークにおいて量子非局所性(特に量子ステアリング)の形式を見ることができることを示す。 この効果をスワップステアリングと呼ぶ。 この研究で示されたシナリオは、そのような効果を観測するには最小限である。 したがって、量子ステアリングは観測できるがベル非局所性は観測できないシナリオが存在する。 さらに,スワップステアリングを観察する線形証人を構築した。 興味深いことに、この証人は、ソースによって生成された量子状態の自己検査と、信頼できないパーティの局所的な測定を可能にしている。 これにより、信頼できないデバイスの測定結果から得る2ビットのランダム性を、最初にランダムなデバイスに供給する必要なく証明することができる。

Quantum networks with multiple sources allow the observation of quantum nonlocality without inputs. Consequently, the incompatibility of measurements is not a necessity for observing quantum nonlocality when one has access to multiple quantum sources. Here we investigate the minimal scenario without inputs where one can observe any form of quantum nonlocality. We show that even two parties with two sources that might be classically correlated can witness a form of quantum nonlocality, in particular quantum steering, in networks without inputs if one of the parties is trusted, that is, performs a fixed known measurement. We term this effect as swap-steering. The scenario presented in this work is minimal to observe such an effect. Consequently, a scenario exists where one can observe quantum steering but not Bell non-locality. We further construct a linear witness to observe swap-steering. Interestingly, this witness enables self-testing of the quantum states generated by the sources and the local measurement of the untrusted party. This in turn allows certifying two bits of randomness that can be obtained from the measurement outcomes of the untrusted device without the requirement of initially feeding the device with randomness.
翻訳日:2024-07-16 05:56:40 公開日:2024-07-11
# 不確実性の違いによる格付けの公平性

Fairness in Ranking under Disparate Uncertainty ( http://arxiv.org/abs/2309.01610v3 )

ライセンス: Link先を確認
Richa Rastogi, Thorsten Joachims, (参考訳) ランク付けは、人間の評価者の注意を、管理可能な選択肢のサブセットに集中するためのユビキタスな方法である。 人間の意思決定プロセスの一部としての利用は、eコマースサイトで潜在的に関連性の高い製品に言及することから、人間のレビューのための大学応用の優先順位付けまで多岐にわたる。 ランキングは、最も有望な選択肢に注意を向けることで、人間の評価をより効果的にすることができるが、基礎となる関連モデルの不確実性が選択肢群間で異なる場合、不公平を生じさせる可能性があると論じる。 残念なことに、このような不確実性の格差は、多くの場合、データ不足や適切な特徴の欠如により、関連性評価がより高い不確実性を持つマイノリティグループへの有害な影響により、広く見られる。 この公平性問題に対処するため、我々は、EOR(Equal-Opportunity Ranking)を、ランク付けのための新しい公正基準として提案し、異なる不確実性が存在する場合でも、関連する選択肢の集団的公正な宝くじに相当することを示す。 EORは、従来の確率ランク付け原則とは異なり、すべてのグループに対してさらにコスト負担を最適化し、グループサイズに対する比例表現によって動機付けられる、人口比率や比例ルーニー規則の制約のような、ランク付けにおける公正性の既存の概念と根本的に異なる。 EORランキングを実用的なものにするために、時間$O(n \log(n))$で計算する効率的なアルゴリズムを提案し、その近似保証を地球規模の最適解に対して証明する。 合成データ、米国国勢調査データセット、およびAmazon検索クエリの実世界監査に関する総合的な実証的評価において、このアルゴリズムは効果的なランキングを提供しながら、EOR公正性を確実に保証する。

Ranking is a ubiquitous method for focusing the attention of human evaluators on a manageable subset of options. Its use as part of human decision-making processes ranges from surfacing potentially relevant products on an e-commerce site to prioritizing college applications for human review. While ranking can make human evaluation more effective by focusing attention on the most promising options, we argue that it can introduce unfairness if the uncertainty of the underlying relevance model differs between groups of options. Unfortunately, such disparity in uncertainty appears widespread, often to the detriment of minority groups for which relevance estimates can have higher uncertainty due to a lack of data or appropriate features. To address this fairness issue, we propose Equal-Opportunity Ranking (EOR) as a new fairness criterion for ranking and show that it corresponds to a group-wise fair lottery among the relevant options even in the presence of disparate uncertainty. EOR optimizes for an even cost burden on all groups, unlike the conventional Probability Ranking Principle, and is fundamentally different from existing notions of fairness in rankings, such as demographic parity and proportional Rooney rule constraints that are motivated by proportional representation relative to group size. To make EOR ranking practical, we present an efficient algorithm for computing it in time $O(n \log(n))$ and prove its close approximation guarantee to the globally optimal solution. In a comprehensive empirical evaluation on synthetic data, a US Census dataset, and a real-world audit of Amazon search queries, we find that the algorithm reliably guarantees EOR fairness while providing effective rankings.
翻訳日:2024-07-16 05:56:40 公開日:2024-07-11
# 不均一デバイスのためのフェデレーション学習におけるグループバイアスの緩和

Mitigating Group Bias in Federated Learning for Heterogeneous Devices ( http://arxiv.org/abs/2309.07085v2 )

ライセンス: Link先を確認
Khotso Selialia, Yasra Chandio, Fatima M. Anwar, (参考訳) フェデレートラーニング(Federated Learning)は、分散エッジアプリケーションにおけるプライバシ保護モデルトレーニングアプローチとして登場している。 したがって、ほとんどのエッジデプロイメントは本質的に異質であり、その知覚能力と環境はデプロイメントによって異なる。 このエッジの不均一性は、クライアント間でのローカルデータの独立性と同一分布(IID)特性に反し、偏りのあるグローバルモデル、すなわち特定のコミュニティやグループに対する不公平な意思決定と差別に寄与するモデルを生成する。 既存のバイアス緩和技術は、特徴的不均一性に起因する領域の変動を考慮せずに、非IIDデータのラベルの不均一性から生成されるバイアスのみに焦点を当て、グローバルなグループフェアネス特性に対処しない。 本研究は,プライバシを維持しながら,資源利用のオーバーヘッドを伴わずにグループバイアスを最小限に抑えるグループフェアFLフレームワークを提案する。 本研究の主目的は,異種学習データから得られたクロスドメイン群 \textit{importance weights} を計算し,修正乗算重み更新法を用いて最悪のパフォーマンス群の性能を最適化することである。 さらに, バイアス低減とグループ性能劣化のバランスを保ちつつ, 最短群と最良群との差を最小限に抑えるための正規化手法を提案する。 人間の感情認識と画像分類のベンチマークによる評価は、現実世界の不均一な環境下での我々のフレームワークの公平な意思決定を評価する。

Federated Learning is emerging as a privacy-preserving model training approach in distributed edge applications. As such, most edge deployments are heterogeneous in nature i.e., their sensing capabilities and environments vary across deployments. This edge heterogeneity violates the independence and identical distribution (IID) property of local data across clients and produces biased global models i.e. models that contribute to unfair decision-making and discrimination against a particular community or a group. Existing bias mitigation techniques only focus on bias generated from label heterogeneity in non-IID data without accounting for domain variations due to feature heterogeneity and do not address global group-fairness property. Our work proposes a group-fair FL framework that minimizes group-bias while preserving privacy and without resource utilization overhead. Our main idea is to leverage average conditional probabilities to compute a cross-domain group \textit{importance weights} derived from heterogeneous training data to optimize the performance of the worst-performing group using a modified multiplicative weights update method. Additionally, we propose regularization techniques to minimize the difference between the worst and best-performing groups while making sure through our thresholding mechanism to strike a balance between bias reduction and group performance degradation. Our evaluation of human emotion recognition and image classification benchmarks assesses the fair decision-making of our framework in real-world heterogeneous settings.
翻訳日:2024-07-16 05:46:55 公開日:2024-07-11
# 物理的に動機づけられたガウス複雑性幾何学の概念に向けて

Toward a physically motivated notion of Gaussian complexity geometry ( http://arxiv.org/abs/2309.14418v2 )

ライセンス: Link先を確認
Bruno de S. L. Torres, Eduardo Martín-Martínez, (参考訳) リーマン幾何学の観点からは、ガウス状態(ボゾン状態とフェルミオン状態の両方)に対する回路複雑性の幾何学的概念の一般的な構成を示す。 我々は、ガウス状態の空間上のリーマン計量関数が複雑性の物理的に妥当な測度を得るために満足すべきという一般的な条件を定めている。 この一般的な定式化は、瞬時状態と各点の回路空間上の方向に非自明に依存するコスト関数から生じる複雑性幾何学の変更に自然に適応することができる。 これらの修正を探索し、特に、実験的な(および熱力学的な)観点ではしばしば自然であるが、一般的に研究されている複雑性測度では欠落している複雑性測度において、時間-逆対称性の破れを考慮する方法を示す。 これは、物理的に動機づけられた視点から、研究室で実装するために経験されたことを「簡単」または「ハード」として忠実に模倣する、量的、幾何学的な複雑さの概念を構築するための第一歩となる。

We present a general construction of a geometric notion of circuit complexity for Gaussian states (both bosonic and fermionic) in terms of Riemannian geometry. We lay out general conditions that a Riemannian metric function on the space of Gaussian states should satisfy in order for it to yield a physically reasonable measure of complexity. This general formalism can naturally accommodate modifications to complexity geometries that arise from cost functions that depend nontrivially on the instantaneous state and on the direction on circuit space at each point. We explore these modifications and, as a particular case, we show how to account for time-reversal symmetry breaking in measures of complexity, which is often natural from an experimental (and thermodynamical) perspective, but is absent in commonly studied complexity measures. This establishes a first step towards building a quantitative, geometric notion of complexity that faithfully mimics what is experienced as "easy" or "hard" to implement in a lab from a physically motivated point of view.
翻訳日:2024-07-16 05:46:55 公開日:2024-07-11
# 機械による統計的識別に対する介入

Interventions Against Machine-Assisted Statistical Discrimination ( http://arxiv.org/abs/2310.04585v3 )

ライセンス: Link先を確認
John Y. Zhu, (参考訳) 私は、人間ではなく、機械学習によって生成されるような、検証可能な信念によって引き起こされる統計的差別を研究します。 信念が検証可能であれば、統計的差別に対する介入は、肯定的な行動のようなシンプルで信条のない設計から、より洗練されたものへと移行し、彼らが考えていることに基づいて意思決定者を制限することができる。 このようなマインドリーディングの介入は、肯定的な行動が起こらない場合でも、たとえ読まれているマインドが偏っているとしても、うまく機能する。 私の信念継続的介入設計の理論は、機械学習を規制する影響力のある方法に光を当て、共変量シフトと誤った偏見のある信念に頑健な新しい介入をもたらす。

I study statistical discrimination driven by verifiable beliefs, such as those generated by machine learning, rather than by humans. When beliefs are verifiable, interventions against statistical discrimination can move beyond simple, belief-free designs like affirmative action, to more sophisticated ones, that constrain decision makers based on what they are thinking. Such mind reading interventions can perform well where affirmative action does not, even when the minds being read are biased. My theory of belief-contingent intervention design sheds light on influential methods of regulating machine learning, and yields novel interventions robust to covariate shift and incorrect, biased beliefs.
翻訳日:2024-07-16 05:46:55 公開日:2024-07-11
# ショートカット学習の基礎について

On the Foundations of Shortcut Learning ( http://arxiv.org/abs/2310.16228v2 )

ライセンス: Link先を確認
Katherine L. Hermann, Hossein Mobahi, Thomas Fel, Michael C. Mozer, (参考訳) ディープラーニングモデルは、データから豊富な特徴を抽出することができる。 モデルが使用する機能は,‘emph{predictivity}’ – トレーニングセットラベルを確実に示す機能 – だけでなく,‘emph{availability}’ – に依存する。 ショートカット学習に関する文献では、例えば、形状上のテクスチャや、前景の物体上の画像背景など、モデルが別の特徴を特権化する例が指摘されている。 本稿では,モデルに対してどの入力特性が利用可能かという仮説を検証し,モデルの特徴利用に対する予測性と可利用性がどのように相互作用するかを体系的に検討する。 我々は、予測可能性や、可用性に関連する要因によって異なる2つの潜在的特徴を持つ分類データセットを合成するための最小限の、明示的な生成フレームワークを構築し、コア機能を犠牲にして、ショートカット(より入手しやすく、予測しにくい)機能に過度に依存するモデルのショートカットバイアスを定量化する。 線形モデルは比較的偏りがないが、ReLUやTanhの単位を持つ単一の隠蔽層を導入するとバイアスが生じる。 我々の経験的発見は、Neural Tangent Kernelsに基づく理論的考察と一致している。 最後に、本研究では、自然主義データセットにおける予測と可用性のトレードオフ、モデルのショートカットバイアスの程度を増大させるアベイラビリティ操作の発見について検討する。 これらの結果は、モデルがタスクをどう解決するかを形作る役割を考慮し、体系的な研究を保証している深い非線形アーキテクチャの基本的特徴として、ショートカットの特徴を学習する妥当性が示唆されている。

Deep-learning models can extract a rich assortment of features from data. Which features a model uses depends not only on \emph{predictivity} -- how reliably a feature indicates training-set labels -- but also on \emph{availability} -- how easily the feature can be extracted from inputs. The literature on shortcut learning has noted examples in which models privilege one feature over another, for example texture over shape and image backgrounds over foreground objects. Here, we test hypotheses about which input properties are more available to a model, and systematically study how predictivity and availability interact to shape models' feature use. We construct a minimal, explicit generative framework for synthesizing classification datasets with two latent features that vary in predictivity and in factors we hypothesize to relate to availability, and we quantify a model's shortcut bias -- its over-reliance on the shortcut (more available, less predictive) feature at the expense of the core (less available, more predictive) feature. We find that linear models are relatively unbiased, but introducing a single hidden layer with ReLU or Tanh units yields a bias. Our empirical findings are consistent with a theoretical account based on Neural Tangent Kernels. Finally, we study how models used in practice trade off predictivity and availability in naturalistic datasets, discovering availability manipulations which increase models' degree of shortcut bias. Taken together, these findings suggest that the propensity to learn shortcut features is a fundamental characteristic of deep nonlinear architectures warranting systematic study given its role in shaping how models solve tasks.
翻訳日:2024-07-16 05:46:55 公開日:2024-07-11
# 騒音下でのキャリブレーション次元低減ハイパーパラメータ

Calibrating dimension reduction hyperparameters in the presence of noise ( http://arxiv.org/abs/2312.02946v5 )

ライセンス: Link先を確認
Justin Lin, Julia Fukuyama, (参考訳) 次元削減ツールの目的は、高次元データの低次元表現を構築することである。 これらのツールは、ノイズ低減、可視化、計算コストの削減など、様々な理由で使用されている。 しかし、他のモデリング問題で議論される根本的な問題は、しばしば次元の縮小で見過ごされる -- 過度に適合する。 他のモデリング問題の文脈では、機能選択、クロスバリデーション、正規化といった手法がオーバーフィッティングと闘うために用いられるが、次元縮小を適用する際に行われるような予防措置はめったにない。 最も一般的な2つの非線形次元削減手法であるt-SNEとUMAPは、性能を評価する際に信号とノイズの組み合わせとしてデータを認識できない。 これらの手法は通常、信号だけでなくデータ全体をキャプチャするために校正される。 本稿では,過度パラメータの校正における雑音の認識の重要性を実証し,それを実現するためのフレームワークを提案する。 我々はこのフレームワークを用いて、t-SNE と UMAP を適用する際に、データに過度に適合するハイパーパラメータキャリブレーションが果たす役割を探求する。 より具体的には、前述したパープレキシティの値を示し、n_neighborsは小さすぎてノイズが過度に収まらない。 また、ノイズの存在下でハイパーパラメータをキャリブレーションするワークフローも提供しています。

The goal of dimension reduction tools is to construct a low-dimensional representation of high-dimensional data. These tools are employed for a variety of reasons such as noise reduction, visualization, and to lower computational costs. However, there is a fundamental issue that is discussed in other modeling problems that is often overlooked in dimension reduction -- overfitting. In the context of other modeling problems, techniques such as feature-selection, cross-validation, and regularization are employed to combat overfitting, but rarely are such precautions taken when applying dimension reduction. Prior applications of the two most popular non-linear dimension reduction methods, t-SNE and UMAP, fail to acknowledge data as a combination of signal and noise when assessing performance. These methods are typically calibrated to capture the entirety of the data, not just the signal. In this paper, we demonstrate the importance of acknowledging noise when calibrating hyperparameters and present a framework that enables users to do so. We use this framework to explore the role hyperparameter calibration plays in overfitting the data when applying t-SNE and UMAP. More specifically, we show previously recommended values for perplexity and n_neighbors are too small and overfit the noise. We also provide a workflow others may use to calibrate hyperparameters in the presence of noise.
翻訳日:2024-07-16 05:37:11 公開日:2024-07-11
# モダリティが不均衡な非IIDデータセットを用いた癌ステージングのためのマルチモーダルフェデレーション学習

Multi-Modal Federated Learning for Cancer Staging over Non-IID Datasets with Unbalanced Modalities ( http://arxiv.org/abs/2401.03609v2 )

ライセンス: Link先を確認
Kasra Borazjani, Naji Khosravan, Leslie Ying, Seyyedali Hosseinalipour, (参考訳) 医療画像解析によるがんステージングにおける機械学習(ML)の利用は、医学分野において大きな関心を集めている。 革新的フェデレーション学習(FL)フレームワークを伴って、ML技術は患者のデータ露出に関するプライバシー上の懸念をさらに克服することができる。 患者記録に多様なデータモダリティが頻繁に存在することを考えると、FLをマルチモーダル学習フレームワークで活用することは、がんのステージングにかなりの可能性を秘めている。 しかし、既存のマルチモーダルFLに関する研究は、すべてのデータ収集機関がすべてのデータモダリティにアクセスできることを前提にしていることが多い。 この過度に単純化されたアプローチは、システム内のデータモダリティの一部しかアクセスできない制度を無視します。 本研究では,データサンプルの不均一性だけでなく,機関間のデータモダリティの固有不均一性と不均一性を両立する新しいFLアーキテクチャを提案する。 FLシステム内の様々なデータモダリティにまたがる様々な収束速度に関する課題に光を当てた。 次に,マルチモーダルFLに適した分散勾配混合および近接対応クライアント重み付け戦略を考案することにより,これらの課題に対処するソリューションを提案する。 本手法の優位性を示すため,癌ゲノムアトラスプログラム(TCGA)を用いて,mRNA配列,病理組織像データ,臨床情報という,異なるがんの種類とデータの3つのモーダル性を考慮した実験を行った。 さらに, モデル性能に及ぼすクラスベースとタイプベースの不均一性の影響を明らかにし, マルチモーダルFL文学におけるデータ不均一性の概念への視点を広げた。

The use of machine learning (ML) for cancer staging through medical image analysis has gained substantial interest across medical disciplines. When accompanied by the innovative federated learning (FL) framework, ML techniques can further overcome privacy concerns related to patient data exposure. Given the frequent presence of diverse data modalities within patient records, leveraging FL in a multi-modal learning framework holds considerable promise for cancer staging. However, existing works on multi-modal FL often presume that all data-collecting institutions have access to all data modalities. This oversimplified approach neglects institutions that have access to only a portion of data modalities within the system. In this work, we introduce a novel FL architecture designed to accommodate not only the heterogeneity of data samples, but also the inherent heterogeneity/non-uniformity of data modalities across institutions. We shed light on the challenges associated with varying convergence speeds observed across different data modalities within our FL system. Subsequently, we propose a solution to tackle these challenges by devising a distributed gradient blending and proximity-aware client weighting strategy tailored for multi-modal FL. To show the superiority of our method, we conduct experiments using The Cancer Genome Atlas program (TCGA) datalake considering different cancer types and three modalities of data: mRNA sequences, histopathological image data, and clinical information. Our results further unveil the impact and severity of class-based vs type-based heterogeneity across institutions on the model performance, which widens the perspective to the notion of data heterogeneity in multi-modal FL literature.
翻訳日:2024-07-16 05:27:26 公開日:2024-07-11
# 複数の時間的視点を持つ変圧器RNNの強化

Enhancing Transformer RNNs with Multiple Temporal Perspectives ( http://arxiv.org/abs/2402.02625v2 )

ライセンス: Link先を確認
Razvan-Gabriel Dumitru, Darius Peteleaza, Mihai Surdeanu, (参考訳) 本稿では、逐次データに対する理解を高めるために、リカレントニューラルネットワーク(RNN)アーキテクチャに適用可能な新しいアプローチである、多重時間視点の概念を紹介する。 この方法は、以前遭遇したテキストの多様な時間的ビューを維持することを含み、コンテキストを解釈する言語モデルの能力を大幅に強化する。 このアプローチの有効性を示すため,Receptance Weighted Key Value (RWKV) アーキテクチャに組み込んだ。 特に、この改善はパラメータの数を最小限に増やすことで達成される。 さらに、複数の時間的視点に必要な追加パラメータは、計算オーバーヘッドを最小限に抑えて微調整され、完全な事前学習が不要になる。 結果として得られるモデルは、プロンプト推論中に線形計算の複雑さを維持し、様々な列の長さにわたって一貫した効率を確保する。 本研究に含まれる実験結果とアブレーション研究は,本手法の有効性を検証し,複数のベンチマークにおける性能向上を示すものである。 コード、モデルウェイト、データセットは、https://github.com/RazvanDu/TemporalRNNsでオープンソース化されている。

We introduce the concept of multiple temporal perspectives, a novel approach applicable to Recurrent Neural Network (RNN) architectures for enhancing their understanding of sequential data. This method involves maintaining diverse temporal views of previously encountered text, significantly enriching the language models' capacity to interpret context. To show the efficacy of this approach, we incorporate it into the Receptance Weighted Key Value (RWKV) architecture, addressing its inherent challenge of retaining all historical information within a single hidden state. Notably, this improvement is achieved with a minimal increase in the number of parameters --even as little as $0.04\%$ of the original number of parameters. Further, the additional parameters necessary for the multiple temporal perspectives are fine-tuned with minimal computational overhead, avoiding the need for a full pre-training. The resulting model maintains linear computational complexity during prompt inference, ensuring consistent efficiency across various sequence lengths. The empirical results and ablation studies included in our research validate the effectiveness of our approach, showcasing improved performance across multiple benchmarks. The code, model weights and datasets are open-sourced at: https://github.com/RazvanDu/TemporalRNNs.
翻訳日:2024-07-16 05:27:26 公開日:2024-07-11
# モデル表現の機械的解釈の課題

Challenges in Mechanistically Interpreting Model Representations ( http://arxiv.org/abs/2402.03855v2 )

ライセンス: Link先を確認
Satvik Golechha, James Dao, (参考訳) 機械的解釈可能性(MI)は、ニューラルネットワークが学習する正確なアルゴリズムをリバースエンジニアリングすることで、AIモデルを理解することを目的としている。 これまでのMIにおけるほとんどの研究は、自明でトークンに整合した振る舞いと能力を研究してきた。 しかし、安全と信頼のために重要な能力の多くはそれほど簡単ではないため、分析単位としてこれらのネットワーク内の隠れ表現の研究を提唱している。 特徴と行動の表現を形式化し,その重要性と評価を強調し,「ミストラル7B-インストラクト-v0.1」における不当表現の探索的研究を行う。 我々は,表現の学習が重要かつ未研究の分野であることを正当化し,現在MIで確立されている手法を通じて実現しようとしているいくつかの課題を強調し,その不十分さを示し,新しいフレームワークの開発を提唱する。

Mechanistic interpretability (MI) aims to understand AI models by reverse-engineering the exact algorithms neural networks learn. Most works in MI so far have studied behaviors and capabilities that are trivial and token-aligned. However, most capabilities important for safety and trust are not that trivial, which advocates for the study of hidden representations inside these networks as the unit of analysis. We formalize representations for features and behaviors, highlight their importance and evaluation, and perform an exploratory study of dishonesty representations in `Mistral-7B-Instruct-v0.1'. We justify that studying representations is an important and under-studied field, and highlight several challenges that arise while attempting to do so through currently established methods in MI, showing their insufficiency and advocating work on new frameworks for the same.
翻訳日:2024-07-16 05:27:26 公開日:2024-07-11
# 長期連続予測のためのロスシェーピング制約

Loss Shaping Constraints for Long-Term Time Series Forecasting ( http://arxiv.org/abs/2402.09373v2 )

ライセンス: Link先を確認
Ignacio Hounie, Javier Porras-Valenzuela, Alejandro Ribeiro, (参考訳) 時系列予測におけるいくつかの応用は、先進的な複数のステップを予測する必要がある。 このトピックの膨大な文献にもかかわらず、古典的および最近のディープラーニングベースのアプローチは、予測されたウィンドウ上での平均的なパフォーマンスを最小化することに重点を置いている。 このことが,特に一般的な予測ベンチマークでトレーニングされた最近のトランスフォーマーアーキテクチャにおいて,予測ステップにまたがる誤差の分散に繋がる可能性があることを観察する。 つまり、平均的なパフォーマンスの最適化は、特定のタイミングで、望ましくないほど大きなエラーを引き起こす可能性がある。 本研究では,長期連続予測のための制約付き学習手法を提案する。この手法は,各時点における損失に対するユーザ定義上の上限を尊重する平均性能の観点から,最適なモデルを求めることを目的としている。 我々は、各時点における損失に制約を課すため、アプローチ損失の定式化制約と呼び、最近の双対性結果を利用して、その非凸性にも拘わらず、結果として生じる問題は有界双対性ギャップを有することを示す。 提案手法は,予測ウィンドウ間の誤差分布を形作るとともに,時系列予測ベンチマークにおいて競合平均性能を示すことを示す。

Several applications in time series forecasting require predicting multiple steps ahead. Despite the vast amount of literature in the topic, both classical and recent deep learning based approaches have mostly focused on minimising performance averaged over the predicted window. We observe that this can lead to disparate distributions of errors across forecasting steps, especially for recent transformer architectures trained on popular forecasting benchmarks. That is, optimising performance on average can lead to undesirably large errors at specific time-steps. In this work, we present a Constrained Learning approach for long-term time series forecasting that aims to find the best model in terms of average performance that respects a user-defined upper bound on the loss at each time-step. We call our approach loss shaping constraints because it imposes constraints on the loss at each time step, and leverage recent duality results to show that despite its non-convexity, the resulting problem has a bounded duality gap. We propose a practical Primal-Dual algorithm to tackle it, and demonstrate that the proposed approach exhibits competitive average performance in time series forecasting benchmarks, while shaping the distribution of errors across the predicted window.
翻訳日:2024-07-16 05:17:24 公開日:2024-07-11
# BlendFilter: クエリ生成と知識フィルタリングによる検索強化された大規模言語モデルの改善

BlendFilter: Advancing Retrieval-Augmented Large Language Models via Query Generation Blending and Knowledge Filtering ( http://arxiv.org/abs/2402.11129v2 )

ライセンス: Link先を確認
Haoyu Wang, Ruirui Li, Haoming Jiang, Jinjin Tian, Zhengyang Wang, Chen Luo, Xianfeng Tang, Monica Cheng, Tuo Zhao, Jing Gao, (参考訳) Retrieval-augmented Large Language Models (LLMs)は、知識集約型シナリオのパフォーマンス向上において、大きなメリットを提供する。 しかし、これらの手法は複雑な入力とノイズの多い知識検索による困難に直面することが多く、特にモデルの有効性を阻害する。 この問題に対処するためにBlendFilterを導入し、知識フィルタリングとクエリ生成を融合させることにより、検索拡張LDMを増大させる新しいアプローチを提案する。 BlendFilter氏は、外部知識と内部知識の両方を元のクエリと統合し、包括的な情報収集を保証するクエリ生成手法によるブレンディングプロセスを提案する。 さらに,LLMの本質的な機能に特有な知識フィルタリングモジュールを付加し,外部データを効果的に除去する。 我々は3つのオープンドメイン質問応答ベンチマークで広範な実験を行い、我々の革新的なBlendFilterが最先端のベースラインをはるかに上回っていることを明らかにした。

Retrieval-augmented Large Language Models (LLMs) offer substantial benefits in enhancing performance across knowledge-intensive scenarios. However, these methods often face challenges with complex inputs and encounter difficulties due to noisy knowledge retrieval, notably hindering model effectiveness. To address this issue, we introduce BlendFilter, a novel approach that elevates retrieval-augmented LLMs by integrating query generation blending with knowledge filtering. BlendFilter proposes the blending process through its query generation method, which integrates both external and internal knowledge augmentation with the original query, ensuring comprehensive information gathering. Additionally, our distinctive knowledge filtering module capitalizes on the intrinsic capabilities of the LLM, effectively eliminating extraneous data. We conduct extensive experiments on three open-domain question answering benchmarks, and the findings clearly indicate that our innovative BlendFilter surpasses state-of-the-art baselines significantly.
翻訳日:2024-07-16 05:17:24 公開日:2024-07-11
# SoK: SNARKにおけるセキュリティ脆弱性の理解

SoK: What don't we know? Understanding Security Vulnerabilities in SNARKs ( http://arxiv.org/abs/2402.15293v4 )

ライセンス: Link先を確認
Stefanos Chaliasos, Jens Ernstberger, David Theodore, David Wong, Mohammad Jahanara, Benjamin Livshits, (参考訳) ゼロ知識証明(ZKP)は、プライバシーと検証可能性を提供する理論概念から進化し、SNARK(Succinct Non-Interactive Argument of Knowledge)が最も重要なイノベーションの1つとして登場した。 これまでは主に、より効率的なSNARKシステムの設計とセキュリティ証明の提供に重点を置いてきた。 多くの人はSNARKを「ただの数学」とみなし、実際に正しいと証明されたものが正しいことを示唆している。 これとは対照的に,本研究では,実生活SNARK実装のエンドツーエンドセキュリティ特性の評価に重点を置いている。 まず、システムモデルによる基盤の構築と、脅威モデルを確立し、SNARKを使用するシステムに対する敵の役割を定義することから始めます。 本研究は,SNARK実装における141の実際の脆弱性を広範囲に分析し,SNARKを用いたシステムのセキュリティ脅威を理解する上で,開発者やセキュリティ研究者を支援するための詳細な分類法を提供する。 最後に、我々は既存の防衛機構を評価し、SNARKベースのシステムのセキュリティを強化するための勧告を提供し、将来より堅牢で信頼性の高い実装を実現する。

Zero-knowledge proofs (ZKPs) have evolved from being a theoretical concept providing privacy and verifiability to having practical, real-world implementations, with SNARKs (Succinct Non-Interactive Argument of Knowledge) emerging as one of the most significant innovations. Prior work has mainly focused on designing more efficient SNARK systems and providing security proofs for them. Many think of SNARKs as "just math," implying that what is proven to be correct and secure is correct in practice. In contrast, this paper focuses on assessing end-to-end security properties of real-life SNARK implementations. We start by building foundations with a system model and by establishing threat models and defining adversarial roles for systems that use SNARKs. Our study encompasses an extensive analysis of 141 actual vulnerabilities in SNARK implementations, providing a detailed taxonomy to aid developers and security researchers in understanding the security threats in systems employing SNARKs. Finally, we evaluate existing defense mechanisms and offer recommendations for enhancing the security of SNARK-based systems, paving the way for more robust and reliable implementations in the future.
翻訳日:2024-07-16 05:17:24 公開日:2024-07-11
# 文章の読み方:著者との短編要約に基づく大規模言語モデルの評価

Reading Subtext: Evaluating Large Language Models on Short Story Summarization with Writers ( http://arxiv.org/abs/2403.01061v3 )

ライセンス: Link先を確認
Melanie Subbiah, Sean Zhang, Lydia B. Chilton, Kathleen McKeown, (参考訳) 我々は,最近のLarge Language Models (LLMs) について,長文やスクランブルタイムラインを含む短いストーリーを要約する難題について評価する。 重要なことは、著者たちと直接協力して、ストーリーがオンラインに共有されていないこと(従ってモデルによっては見つからない)を確認し、著者自身による判断を用いて要約品質のインフォームド評価を得ることである。 GPT-4, Claude-2.1, LLama-2-70Bの比較を行った。 3つのモデル全てが要約の50%以上で忠実さの誤りを犯し、難解な文の特異性と解釈に苦慮していることがわかった。 また,LLM評価やその他の要約品質指標が,著者による品質評価と相関しないことを示す。

We evaluate recent Large Language Models (LLMs) on the challenging task of summarizing short stories, which can be lengthy, and include nuanced subtext or scrambled timelines. Importantly, we work directly with authors to ensure that the stories have not been shared online (and therefore are unseen by the models), and to obtain informed evaluations of summary quality using judgments from the authors themselves. Through quantitative and qualitative analysis grounded in narrative theory, we compare GPT-4, Claude-2.1, and LLama-2-70B. We find that all three models make faithfulness mistakes in over 50% of summaries and struggle with specificity and interpretation of difficult subtext. We additionally demonstrate that LLM ratings and other automatic metrics for summary quality do not correlate well with the quality ratings from the writers.
翻訳日:2024-07-16 05:07:34 公開日:2024-07-11
# 拡散モデルを用いた潜在データセット蒸留

Latent Dataset Distillation with Diffusion Models ( http://arxiv.org/abs/2403.03881v3 )

ライセンス: Link先を確認
Brian B. Moser, Federico Raue, Sebastian Palacio, Stanislav Frolov, Andreas Dengel, (参考訳) 機械学習は伝統的に、ますます大きなデータセットに依存している。 しかし、そのようなデータセットには大きなストレージ上の課題があり、通常は非インフルエンシャルなサンプルが含まれているため、トレーニング品質に悪影響を及ぼすことなく、トレーニング中に無視することができる。 これに応えて、データセットを凝縮した合成サンプル、すなわち蒸留データセットに蒸留するというアイデアが生まれた。 重要な側面の1つは、選択されたアーキテクチャ(通常はConvNet)で、元のデータセットと合成データセットをリンクする。 しかし, 使用済みモデルアーキテクチャが蒸留時に使用するものと異なる場合, 最終的な精度は低下する。 もうひとつの課題は、高解像度画像(128x128以上)の生成である。 両課題に対処するため,潜在空間における拡散とデータセットの蒸留を組み合わせたLD3M(Latent Dataset Distillation with Diffusion Models)を提案する。 我々の新しい拡散過程は, この課題に適しており, 蒸留の勾配流を著しく改善する。 拡散段数を調整することで、LD3Mは蒸留速度とデータセットの品質のトレードオフを制御する便利な方法も提供する。 LD3Mは、クラスごとに1つの画像と10個の画像に対して、それぞれ4.8 p.p.と4.2 p.p.と、いくつかのImageNetサブセットと高解像度(128x128と256x256)で、最先端の手法を一貫して上回っている。

Machine learning traditionally relies on increasingly larger datasets. Yet, such datasets pose major storage challenges and usually contain non-influential samples, which could be ignored during training without negatively impacting the training quality. In response, the idea of distilling a dataset into a condensed set of synthetic samples, i.e., a distilled dataset, emerged. One key aspect is the selected architecture, usually ConvNet, for linking the original and synthetic datasets. However, the final accuracy is lower if the employed model architecture differs from that used during distillation. Another challenge is the generation of high-resolution images (128x128 and higher). To address both challenges, this paper proposes Latent Dataset Distillation with Diffusion Models (LD3M) that combine diffusion in latent space with dataset distillation. Our novel diffusion process is tailored for this task and significantly improves the gradient flow for distillation. By adjusting the number of diffusion steps, LD3M also offers a convenient way of controlling the trade-off between distillation speed and dataset quality. Overall, LD3M consistently outperforms state-of-the-art methods by up to 4.8 p.p. and 4.2 p.p. for 1 and 10 images per class, respectively, and on several ImageNet subsets and high resolutions (128x128 and 256x256).
翻訳日:2024-07-16 05:07:34 公開日:2024-07-11
# 分岐注意: LLMにおける共有プレフィックスによる大規模並列デコーディングの高速化

Bifurcated Attention: Accelerating Massively Parallel Decoding with Shared Prefixes in LLMs ( http://arxiv.org/abs/2403.08845v2 )

ライセンス: Link先を確認
Ben Athiwaratkun, Sujan Kumar Gonugondla, Sanjay Krishna Gouda, Haifeng Qian, Hantian Ding, Qing Sun, Jun Wang, Jiacheng Guo, Liangfu Chen, Parminder Bhatia, Ramesh Nallapati, Sudipta Sengupta, Bing Xiang, (参考訳) 本研究では,共有コンテキストのバッチデコーディングシナリオにおいて,言語モデル推論を強化する手法であるバイフルケートアテンションを導入する。 提案手法は,高バッチサイズおよび拡張コンテキスト長のレイテンシに寄与する重要な要因である冗長メモリIOコストの課題に対処する。 分岐した注意は、インクリメンタルデコード中の注意機構を、プリフィルからのKVキャッシュとデコードプロセス自体の2つの別々のGEMM操作に戦略的に分割することで、これを達成している。 標準的な注意機構の計算負荷(FLOP)を維持しながら、二重注意はメモリIOを大幅に削減した正確な計算を保証する。 実験の結果,16個の出力シーケンスをサンプリングすると2.1$\times$スピードアップ,32個のシーケンスをコンテキスト長でサンプリングすると6.2$\times$スピードアップが,マルチヘッドアテンションを用いた7Bモデル上で8kトークンを超えた場合に2.1$\times$スピードアップとなることがわかった。 分岐処理による効率の向上は低レイテンシに変換され、特にリアルタイムアプリケーションに適している。 例えば、レイテンシを大幅に増加させることなく、非常に並列な回答生成を可能にするため、再ランク付けのような後処理技術と統合された場合のパフォーマンスが向上する。

This study introduces bifurcated attention, a method designed to enhance language model inference in shared-context batch decoding scenarios. Our approach addresses the challenge of redundant memory IO costs, a critical factor contributing to latency in high batch sizes and extended context lengths. Bifurcated attention achieves this by strategically dividing the attention mechanism during incremental decoding into two separate GEMM operations: one focusing on the KV cache from prefill, and another on the decoding process itself. While maintaining the computational load (FLOPs) of standard attention mechanisms, bifurcated attention ensures precise computation with significantly reduced memory IO. Our empirical results show over 2.1$\times$ speedup when sampling 16 output sequences and more than 6.2$\times$ speedup when sampling 32 sequences at context lengths exceeding 8k tokens on a 7B model that uses multi-head attention. The efficiency gains from bifurcated attention translate into lower latency, making it particularly suitable for real-time applications. For instance, it enables massively parallel answer generation without substantially increasing latency, thus enhancing performance when integrated with post-processing techniques such as re-ranking.
翻訳日:2024-07-16 05:07:34 公開日:2024-07-11
# OTSeg: ゼロショットセマンティックセグメンテーションのためのマルチプロンプトシンクホーン注意

OTSeg: Multi-prompt Sinkhorn Attention for Zero-Shot Semantic Segmentation ( http://arxiv.org/abs/2403.14183v2 )

ライセンス: Link先を確認
Kwanyoung Kim, Yujin Oh, Jong Chul Ye, (参考訳) CLIPの最近の成功は、無意味な知識をピクセルレベルの分類に転送することで、ゼロショットセマンティックセグメンテーションの有望な結果を示している。 しかし、事前訓練されたCLIP知識を活用して、テキスト埋め込みとピクセル埋め込みを密に連携させるには、既存のアプローチに制限がある。 この問題に対処するために,OTSegを提案する。OTSegは,複数のテキストプロンプトが関連するピクセルの埋め込みにマッチする可能性を高めるための,新しいマルチモーダルアテンション機構である。 まず,複数のテキストプロンプトを画像画素内の様々な意味的特徴に選択的にフォーカスする最適トランスポート (OT) アルゴリズムに基づくマルチプロンプトシンクホーン (MPS) を提案する。 さらに,Sinkformersの単調な設定での成功に触発されて,MPSの拡張であるMPSA(Multi-Prompts Sinkhorn Attention)を導入し,Transformerフレームワーク内でのマルチモーダルな設定におけるクロスアテンション機構を効果的に置き換えた。 大規模な実験を通じて,OTSegは3つのベンチマークデータセットにわたるゼロショットセマンティックセマンティックセグメンテーション(ZS3)タスクにおいて,高い精度でSOTA(State-of-the-art)性能を実現することを示した。

The recent success of CLIP has demonstrated promising results in zero-shot semantic segmentation by transferring muiltimodal knowledge to pixel-level classification. However, leveraging pre-trained CLIP knowledge to closely align text embeddings with pixel embeddings still has limitations in existing approaches. To address this issue, we propose OTSeg, a novel multimodal attention mechanism aimed at enhancing the potential of multiple text prompts for matching associated pixel embeddings. We first propose Multi-Prompts Sinkhorn (MPS) based on the Optimal Transport (OT) algorithm, which leads multiple text prompts to selectively focus on various semantic features within image pixels. Moreover, inspired by the success of Sinkformers in unimodal settings, we introduce the extension of MPS, called Multi-Prompts Sinkhorn Attention (MPSA) , which effectively replaces cross-attention mechanisms within Transformer framework in multimodal settings. Through extensive experiments, we demonstrate that OTSeg achieves state-of-the-art (SOTA) performance with significant gains on Zero-Shot Semantic Segmentation (ZS3) tasks across three benchmark datasets.
翻訳日:2024-07-16 04:57:27 公開日:2024-07-11
# RAGAR, your Falsehood Radar: RAG-Augmented Reasoning for Political Fact-Checking using Multimodal Large Language Models

RAGAR, Your Falsehood Radar: RAG-Augmented Reasoning for Political Fact-Checking using Multimodal Large Language Models ( http://arxiv.org/abs/2404.12065v2 )

ライセンス: Link先を確認
M. Abdul Khaliq, P. Chang, M. Ma, B. Pflugfelder, F. Miletić, (参考訳) 誤報のエスカレートする課題、特に政治的言論においては、高度な事実確認ソリューションが必要である。 本稿では,検索拡張世代(RAG)とともに多モーダルな言語モデルを用いてこの問題に取り組み,RAGの連鎖(CoRAG)とRAGのツリー(ToRAG)という2つの新しい推論手法を導入する。 彼らは、テキストコンテンツと画像コンテンツの両方を抽出し、外部情報を取得し、その後の質問を事前の証拠に基づいて推論することで、マルチモーダルクレームを事実チェックする。 重み付きF1スコアは0.85で、ベースライン推論法を0.14ポイント超える。 人間の評価は、生成した事実確認説明の大部分は、金標準データから得られるすべての情報を含んでいることを確認します。

The escalating challenge of misinformation, particularly in political discourse, requires advanced fact-checking solutions; this is even clearer in the more complex scenario of multimodal claims. We tackle this issue using a multimodal large language model in conjunction with retrieval-augmented generation (RAG), and introduce two novel reasoning techniques: Chain of RAG (CoRAG) and Tree of RAG (ToRAG). They fact-check multimodal claims by extracting both textual and image content, retrieving external information, and reasoning subsequent questions to be answered based on prior evidence. We achieve a weighted F1-score of 0.85, surpassing a baseline reasoning technique by 0.14 points. Human evaluation confirms that the vast majority of our generated fact-check explanations contain all information from gold standard data.
翻訳日:2024-07-16 04:47:43 公開日:2024-07-11
# 小児脳腫瘍切除 : CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDsを中心に

The Brain Tumor Segmentation in Pediatrics (BraTS-PEDs) Challenge: Focus on Pediatrics (CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs) ( http://arxiv.org/abs/2404.15009v4 )

ライセンス: Link先を確認
Anahita Fathi Kazerooni, Nastaran Khalili, Xinyang Liu, Deep Gandhi, Zhifan Jiang, Syed Muhammed Anwar, Jake Albrecht, Maruf Adewole, Udunna Anazodo, Hannah Anderson, Ujjwal Baid, Timothy Bergquist, Austin J. Borja, Evan Calabrese, Verena Chung, Gian-Marco Conte, Farouk Dako, James Eddy, Ivan Ezhov, Ariana Familiar, Keyvan Farahani, Andrea Franson, Anurag Gottipati, Shuvanjan Haldar, Juan Eugenio Iglesias, Anastasia Janas, Elaine Johansen, Blaise V Jones, Neda Khalili, Florian Kofler, Dominic LaBella, Hollie Anne Lai, Koen Van Leemput, Hongwei Bran Li, Nazanin Maleki, Aaron S McAllister, Zeke Meier, Bjoern Menze, Ahmed W Moawad, Khanak K Nandolia, Julija Pavaine, Marie Piraud, Tina Poussaint, Sanjay P Prabhu, Zachary Reitman, Jeffrey D Rudie, Mariana Sanchez-Montano, Ibraheem Salman Shaikh, Nakul Sheth, Wenxin Tu, Chunhao Wang, Jeffrey B Ware, Benedikt Wiestler, Anna Zapaishchykova, Miriam Bornhorst, Michelle Deutsch, Maryam Fouladi, Margot Lazow, Leonie Mikael, Trent Hummel, Benjamin Kann, Peter de Blank, Lindsey Hoffman, Mariam Aboian, Ali Nabavizadeh, Roger Packer, Spyridon Bakas, Adam Resnick, Brian Rood, Arastoo Vossough, Marius George Linguraru, (参考訳) 中枢神経系の小児腫瘍は、小児におけるがん関連死の最も一般的な原因である。 小児の高次グリオーマの生存率は20%未満である。 希少性のため、診断が遅れることが多く、治療は主に歴史的治療の概念に基づいており、臨床試験には複数施設の協力が必要である。 CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDsの課題は、小児脳腫瘍に焦点をあて、小児神経腫瘍学および臨床治験に特化した複数の国際コンソーシアムにまたがるデータを収集することである。 CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDsチャレンジは、臨床治験に役立つ自動セグメンテーション技術の開発と、最終的には脳腫瘍を持つ子供のケアを加速させる。

Pediatric tumors of the central nervous system are the most common cause of cancer-related death in children. The five-year survival rate for high-grade gliomas in children is less than 20%. Due to their rarity, the diagnosis of these entities is often delayed, their treatment is mainly based on historic treatment concepts, and clinical trials require multi-institutional collaborations. Here we present the CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs challenge, focused on pediatric brain tumors with data acquired across multiple international consortia dedicated to pediatric neuro-oncology and clinical trials. The CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs challenge brings together clinicians and AI/imaging scientists to lead to faster development of automated segmentation techniques that could benefit clinical trials, and ultimately the care of children with brain tumors.
翻訳日:2024-07-16 04:47:43 公開日:2024-07-11
# 光電子波束の量子状態トモグラフィーへの多次元的アプローチ

A multidimensional approach to quantum state tomography of photoelectron wavepackets ( http://arxiv.org/abs/2405.00968v2 )

ライセンス: Link先を確認
Hugo Laurell, Jorge Baños-Gutiérrez, Anne L'Huillier, David Busto, Daniel Finkelstein-Shapiro, (参考訳) 光電子波束の密度行列の再構成への関心が高まっており、特にデコヒーレンスを系の部分的な測定または確率的環境との結合によって導入できる複雑なシステムにおいてである。 この目的のために、密度行列、量子状態トモグラフィープロトコルを再構築するいくつかの手法が、アト秒パルスからの極紫外線(XUV)光子の吸収により希ガスから放出される光電子に対して開発され、試験されている。 密度行列を高忠実度で再構成できるモデルフリーの単一スキャンプロトコルを得るのは難しい。 現在の方法では、広範囲な測定や信号の複雑なフィッティングが必要となる。 効率的な単一スキャン再構成は、研究できるシステムの数を増やすのに大いに役立ちます。 本稿では,光電子の連続的変動密度行列を単一時間遅延スキャンで再構成できる新しい,より効率的なプロトコルを提案する。 これは、時間で走査されるブロードバンド赤外線プローブと、XUVパルスに時間的に固定される狭帯域IR参照を用いて、XUVパルスの吸収によって生成される光電子のコヒーレンスを測定することに基づいている。 スピン軌道分割により生じるArの混合状態とHeにおけるファノ共鳴の性能について述べる。 このプロトコルは, 良好な忠実度とほぼ完全な純度推定をもたらすことを示す。

There is a growing interest in reconstructing the density matrix of photoelectron wavepackets, in particular in complex systems where decoherence can be introduced either by a partial measurement of the system or through coupling with a stochastic environment. To this end, several methods to reconstruct the density matrix, quantum state tomography protocols, have been developed and tested on photoelectrons ejected from noble gases following absorption of extreme ultraviolet (XUV) photons from attosecond pulses. It remains a challenge to obtain model-free, single scan protocols that can reconstruct the density matrix with high fidelities. Current methods require extensive measurements or involve complex fitting of the signal. Efficient single-scan reconstructions would be of great help to increase the number of systems that can be studied. We propose a new and more efficient protocol that is able to reconstruct the continuous variable density matrix of a photoelectron in a single time delay scan. It is based on measuring the coherences of a photoelectron created by absorption of an XUV pulse using a broadband infrared (IR) probe that is scanned in time and a narrowband IR reference that is temporally fixed to the XUV pulse. We illustrate its performance for a Fano resonance in He as well as mixed states in Ar arising from spin-orbit splitting. We show that the protocol results in excellent fidelities and near-perfect estimation of the purity.
翻訳日:2024-07-16 04:37:57 公開日:2024-07-11
# 数学的推論における大規模言語モデルの構成的欠陥の探索

Exploring the Compositional Deficiency of Large Language Models in Mathematical Reasoning ( http://arxiv.org/abs/2405.06680v2 )

ライセンス: Link先を確認
Jun Zhao, Jingqi Tong, Yurong Mou, Ming Zhang, Qi Zhang, Xuanjing Huang, (参考訳) 人間の認知は体系的な構成性を示し、有限の学習された要素から無限の新しい組み合わせを生成する代数的能力は、複雑な論理について理解し、推論する鍵となる。 本研究では,大規模言語モデル(LLM)の数学的推論における構成性について検討する。 具体的には、MATH と GSM8k の問題記述に慎重に設計された論理的トラップを導入することで、新しいデータセット textsc{MathTrap}\footnotemark[3] を構築する。 論理的欠陥の問題は実世界では非常に稀であるため、これらは''unseen' の場合を LLM に表す。 これらを解決するためには、(1)原問題に関わる数学的知識と(2)導入したトラップに関する知識を体系的に構成する必要がある。 実験の結果, LLM には必要知識の双方の構成要素があるが, それらを組み合わせてこれらの新規事例を扱うことはできないことがわかった。 我々は、自然言語プロンプト、数発のデモ、微調整など、この欠損を緩和するいくつかの方法を探究する。 以上の外部介入により LLM のパフォーマンスを \textbf{passively} で改善できることがわかった。 全体として、体系的な構成性は大きな言語モデルにとってオープンな課題である。

Human cognition exhibits systematic compositionality, the algebraic ability to generate infinite novel combinations from finite learned components, which is the key to understanding and reasoning about complex logic. In this work, we investigate the compositionality of large language models (LLMs) in mathematical reasoning. Specifically, we construct a new dataset \textsc{MathTrap}\footnotemark[3] by introducing carefully designed logical traps into the problem descriptions of MATH and GSM8k. Since problems with logical flaws are quite rare in the real world, these represent ``unseen'' cases to LLMs. Solving these requires the models to systematically compose (1) the mathematical knowledge involved in the original problems with (2) knowledge related to the introduced traps. Our experiments show that while LLMs possess both components of requisite knowledge, they do not \textbf{spontaneously} combine them to handle these novel cases. We explore several methods to mitigate this deficiency, such as natural language prompts, few-shot demonstrations, and fine-tuning. We find that LLMs' performance can be \textbf{passively} improved through the above external intervention. Overall, systematic compositionality remains an open challenge for large language models.
翻訳日:2024-07-16 04:37:57 公開日:2024-07-11
# ゼノ部分空間におけるハミルトンシミュレーション

Hamiltonian simulation in Zeno subspaces ( http://arxiv.org/abs/2405.13589v2 )

ライセンス: Link先を確認
Kasra Rajabzadeh Dizaji, Ariq Haqq, Alicia B. Magann, Christian Arenz, (参考訳) ハミルトンシミュレーションのための量子アルゴリズムの設計と解析の枠組みとして量子ゼノ効果について検討する。 本研究では, アシラ量子ビットレジスタの頻繁なプロジェクティブ測定により, ターゲット量子ビットレジスタ上の量子力学を, ランダム化アプローチと類似した回路複雑度でシミュレートできることを示す。 後者のアプローチの古典的なサンプリングオーバーヘッドは、Zenoベースのアプローチのアンシラキュービットオーバーヘッドと交換される。 2階のZenoシークエンスは、スケーリングを改善するために開発され、ユニタリキックによる実装が議論されている。 組み合わせレジスタ上の回路は、ポスト・トロッター・ハミルトンシミュレーション法でよく用いられるサブルーチンとして同定できることを示す。 我々はこの観測に基づいて、異なるハミルトンシミュレーションアルゴリズム間の接続を明らかにする。

We investigate the quantum Zeno effect as a framework for designing and analyzing quantum algorithms for Hamiltonian simulation. We show that frequent projective measurements of an ancilla qubit register can be used to simulate quantum dynamics on a target qubit register with a circuit complexity similar to randomized approaches. The classical sampling overhead in the latter approaches is traded for ancilla qubit overhead in Zeno-based approaches. A second-order Zeno sequence is developed to improve scaling and implementations through unitary kicks are discussed. We show that the circuits over the combined register can be identified as a subroutine commonly used in post-Trotter Hamiltonian simulation methods. We build on this observation to reveal connections between different Hamiltonian simulation algorithms.
翻訳日:2024-07-16 04:37:57 公開日:2024-07-11
# ML駆動科学における過剰最適化と出版バイアスの解消

Unraveling overoptimism and publication bias in ML-driven science ( http://arxiv.org/abs/2405.14422v3 )

ライセンス: Link先を確認
Pouria Saidi, Gautam Dasarathy, Visar Berisha, (参考訳) 機械学習(ML)は多くの分野にまたがって使われており、印象的な結果が報告されている。 しかし、最近の研究ではMLモデルの性能が過度に最適化されていることが示唆されている。 標本サイズと報告された精度の逆関係の発見は, 標本サイズの増加とともに精度が向上あるいは安定する学習曲線の理論と対比して, 妥当性の懸念を浮き彫りにしている。 本稿では,ML駆動科学における過度最適化に寄与する要因を考察し,過度適合と出版バイアスに着目した。 本稿では,パラメトリック学習曲線と前述のバイアスを統合した新しい確率モデルを提案する。 観測データのバイアスを補正する推定器を構築する。 理論的および実証的な結果は,本フレームワークが学習曲線を推定できることを示し,その結果から現実的な性能評価を提供する。 神経学的条件の分類のメタ分析にモデルを適用し、各領域におけるMLに基づく予測の固有の限界を推定する。

Machine Learning (ML) is increasingly used across many disciplines with impressive reported results. However, recent studies suggest published performance of ML models are often overoptimistic. Validity concerns are underscored by findings of an inverse relationship between sample size and reported accuracy in published ML models, contrasting with the theory of learning curves where accuracy should improve or remain stable with increasing sample size. This paper investigates factors contributing to overoptimism in ML-driven science, focusing on overfitting and publication bias. We introduce a novel stochastic model for observed accuracy, integrating parametric learning curves and the aforementioned biases. We construct an estimator that corrects for these biases in observed data. Theoretical and empirical results show that our framework can estimate the underlying learning curve, providing realistic performance assessments from published results. Applying the model to meta-analyses of classifications of neurological conditions, we estimate the inherent limits of ML-based prediction in each domain.
翻訳日:2024-07-16 04:37:57 公開日:2024-07-11
# コンフォーマル予測による逆問題におけるタスク駆動不確かさの定量化

Task-Driven Uncertainty Quantification in Inverse Problems via Conformal Prediction ( http://arxiv.org/abs/2405.18527v2 )

ライセンス: Link先を確認
Jeffrey Wen, Rizwan Ahmad, Philip Schniter, (参考訳) 逆問題の画像化では、画像が欠落/破損した測定結果から回復しようとする。 このような問題は正しくないため、測定・回収プロセスによって引き起こされる不確実性を定量化する大きな動機がある。 復元された画像が、ソフトアウトプット分類などの下流タスクに使用されるアプリケーションによって動機付けられ、不確実性定量化のためのタスク中心のアプローチを提案する。 特に、コンフォメーション予測を用いて、実際の画像からユーザ特定確率までのタスク出力を含むことが保証される間隔を構築し、その間隔の幅を用いて測定と復元による不確実性の定量化を行う。 後方サンプリングに基づく画像復元のために,局所的な適応予測区間を構築した。 さらに,タスクの不確実性が許容範囲以下になると,複数のラウンドで測定値の収集を行う。 本稿では,MRI(Accelerated MRI:Accelerated MRI: https://github.com/jwen307/TaskUQ。

In imaging inverse problems, one seeks to recover an image from missing/corrupted measurements. Because such problems are ill-posed, there is great motivation to quantify the uncertainty induced by the measurement-and-recovery process. Motivated by applications where the recovered image is used for a downstream task, such as soft-output classification, we propose a task-centered approach to uncertainty quantification. In particular, we use conformal prediction to construct an interval that is guaranteed to contain the task output from the true image up to a user-specified probability, and we use the width of that interval to quantify the uncertainty contributed by measurement-and-recovery. For posterior-sampling-based image recovery, we construct locally adaptive prediction intervals. Furthermore, we propose to collect measurements over multiple rounds, stopping as soon as the task uncertainty falls below an acceptable level. We demonstrate our methodology on accelerated magnetic resonance imaging (MRI): https://github.com/jwen307/TaskUQ.
翻訳日:2024-07-16 04:27:56 公開日:2024-07-11
# 非構造化データに対する多段階推論

Multi-step Inference over Unstructured Data ( http://arxiv.org/abs/2406.17987v3 )

ライセンス: Link先を確認
Aditya Kalyanpur, Kailash Saravanakumar, Victor Barres, CJ McFate, Lori Moon, Nati Seifu, Maksim Eremeev, Jose Barrera, Eric Brown, David Ferrucci, (参考訳) 大規模言語モデル(LLM)と生成AIの出現は、さまざまな領域にわたる自然言語アプリケーションに革命をもたらした。 しかし、医学、法学、金融などの分野における高い意思決定タスクは、純粋なLLMやRAG(Retrieval-Augmented-Generation)アプローチが提供できないような精度、包括性、論理的一貫性のレベルを必要とする。 Elemental Cognition (EC)では,これらの問題に対処するニューロシンボリックAIプラットフォームを開発した。 このプラットフォームは、知識抽出とアライメントのための微調整LDMと、論理推論、計画、対話的制約解決のための堅牢なシンボリック推論エンジンを統合している。 このプラットフォーム上に構築されたコラボレーティブリサーチアシスタントであるColaについて説明する。 本稿では,これらの領域に固有の多段階推論の課題について論じ,既存のLCM手法の限界を批判し,Coraのニューロシンボリックアプローチがこれらの問題にどのように効果的に対処するかを示す。 本稿では,システムアーキテクチャの概要,知識抽出と形式推論の鍵となるアルゴリズム,そしてCoraの優れた性能をよく知られたLCMやRAGのベースラインと比較した予備評価結果について述べる。

The advent of Large Language Models (LLMs) and Generative AI has revolutionized natural language applications across various domains. However, high-stakes decision-making tasks in fields such as medical, legal and finance require a level of precision, comprehensiveness, and logical consistency that pure LLM or Retrieval-Augmented-Generation (RAG) approaches often fail to deliver. At Elemental Cognition (EC), we have developed a neuro-symbolic AI platform to tackle these problems. The platform integrates fine-tuned LLMs for knowledge extraction and alignment with a robust symbolic reasoning engine for logical inference, planning and interactive constraint solving. We describe Cora, a Collaborative Research Assistant built on this platform, that is designed to perform complex research and discovery tasks in high-stakes domains. This paper discusses the multi-step inference challenges inherent in such domains, critiques the limitations of existing LLM-based methods, and demonstrates how Cora's neuro-symbolic approach effectively addresses these issues. We provide an overview of the system architecture, key algorithms for knowledge extraction and formal reasoning, and present preliminary evaluation results that highlight Cora's superior performance compared to well-known LLM and RAG baselines.
翻訳日:2024-07-16 04:18:12 公開日:2024-07-11
# オープンパノラマセグメンテーション

Open Panoramic Segmentation ( http://arxiv.org/abs/2407.02685v2 )

ライセンス: Link先を確認
Junwei Zheng, Ruiping Liu, Yufan Chen, Kunyu Peng, Chengzhi Wu, Kailun Yang, Jiaming Zhang, Rainer Stiefelhagen, (参考訳) パノラマ画像は、360{\deg}視野(FoV)を捉え、シーン理解に不可欠な全方向空間情報を包含する。 しかし、訓練に十分な高密度アノテートパノラマを得るだけでなく、近語彙で訓練する場合にも適用が制限される。 そこで本研究では,対象領域のFoV-オープンなパノラマ画像と評価しながら,ソースドメイン内のFoV制限されたピンホール画像を用いて,対象領域のFoV-オープンなパノラマ画像を用いて学習し,モデルのゼロショットオープンなパノラマセマンティックセマンティックセマンティックセマンティック機能を実現する,Open Panoramic Segmentation (OPS) というタスクを定義した。 さらに,非ショットパノラマセマンティックセマンティックセグメンテーション性能を大幅に向上させる,変形可能なアダプタネットワーク(DAN)を備えたOOOPSモデルを提案する。 ピンホール源領域からの歪み認識モデリング能力をさらに高めるために,物体の変形に先立って対処するRandom Equirectular Projection (RERP) と呼ばれる新しいデータ拡張手法を提案する。 3つのパノラマデータセット(WildPASS、Stanford2D3D、Matterport3D)に対する顕著なパフォーマンス向上である、最先端のオープン語彙セマンティックセマンティックセマンティクスアプローチを超越して、OPSタスクにおけるRERPを用いたOOOPSモデルの有効性、特に屋外のWildPASSでは+2.2%、屋内のStanford2D3Dでは+2.4%のmIoUが証明されている。 ソースコードはhttps://junweizheng93.github.io/publications/OPS/OPS.htmlで公開されている。

Panoramic images, capturing a 360{\deg} field of view (FoV), encompass omnidirectional spatial information crucial for scene understanding. However, it is not only costly to obtain training-sufficient dense-annotated panoramas but also application-restricted when training models in a close-vocabulary setting. To tackle this problem, in this work, we define a new task termed Open Panoramic Segmentation (OPS), where models are trained with FoV-restricted pinhole images in the source domain in an open-vocabulary setting while evaluated with FoV-open panoramic images in the target domain, enabling the zero-shot open panoramic semantic segmentation ability of models. Moreover, we propose a model named OOOPS with a Deformable Adapter Network (DAN), which significantly improves zero-shot panoramic semantic segmentation performance. To further enhance the distortion-aware modeling ability from the pinhole source domain, we propose a novel data augmentation method called Random Equirectangular Projection (RERP) which is specifically designed to address object deformations in advance. Surpassing other state-of-the-art open-vocabulary semantic segmentation approaches, a remarkable performance boost on three panoramic datasets, WildPASS, Stanford2D3D, and Matterport3D, proves the effectiveness of our proposed OOOPS model with RERP on the OPS task, especially +2.2% on outdoor WildPASS and +2.4% mIoU on indoor Stanford2D3D. The source code is publicly available at https://junweizheng93.github.io/publications/OPS/OPS.html.
翻訳日:2024-07-16 04:08:24 公開日:2024-07-11
# 分解・比較整合性:タスク分解整合性比較によるVLMの解答信頼性の測定

Decompose and Compare Consistency: Measuring VLMs' Answer Reliability via Task-Decomposition Consistency Comparison ( http://arxiv.org/abs/2407.07840v2 )

ライセンス: Link先を確認
Qian Yang, Weixiang Yan, Aishwarya Agrawal, (参考訳) 膨大な進歩にもかかわらず、現在の最先端のビジョン・ランゲージ・モデル(VLM)はまだ完璧には程遠い。 幻覚を起こす傾向があり、偏りのある反応を生じさせる。 このような状況下では、VLMによって生成された所定の応答の信頼性を評価する方法が有用である。 解答確率を用いた不確実性の推定や、素早い信頼生成といった既存の手法は、しばしば過度な自信に悩まされる。 他の方法は自己整合性比較を用いるが、確認バイアスに影響される。 これらを緩和するために、信頼性測定のための \textbf{De}compose と \textbf{C}ompare \textbf{C}onsistency (\texttt{DeCC}) を提案する。 VLMの内部推論プロセスを用いて生成した直接回答と、VLMが生成するサブ問合せと推論に分解して得られる間接回答の一貫性を比較することにより、VLMの直接回答の信頼性を測定する。 3つのVLMを用いた6つの視覚言語タスクを対象とした実験は,既存の手法と比較して,タスク精度との相関性が良好であることを示す。

Despite tremendous advancements, current state-of-the-art Vision-Language Models (VLMs) are still far from perfect. They tend to hallucinate and may generate biased responses. In such circumstances, having a way to assess the reliability of a given response generated by a VLM is quite useful. Existing methods, such as estimating uncertainty using answer likelihoods or prompt-based confidence generation, often suffer from overconfidence. Other methods use self-consistency comparison but are affected by confirmation biases. To alleviate these, we propose \textbf{De}compose and \textbf{C}ompare \textbf{C}onsistency (\texttt{DeCC}) for reliability measurement. By comparing the consistency between the direct answer generated using the VLM's internal reasoning process, and the indirect answers obtained by decomposing the question into sub-questions and reasoning over the sub-answers produced by the VLM, \texttt{DeCC} measures the reliability of VLM's direct answer. Experiments across six vision-language tasks with three VLMs show \texttt{DeCC}'s reliability estimation achieves better correlation with task accuracy compared to the existing methods.
翻訳日:2024-07-16 03:48:26 公開日:2024-07-11
# ディープラーニングによるG(t)/GI/1キューの近似

Approximating G(t)/GI/1 queues with deep learning ( http://arxiv.org/abs/2407.08765v1 )

ライセンス: Link先を確認
Eliran Sherzer, Opher Baron, Dmitry Krass, Yehezkel Resheff, (参考訳) 本稿では,G(t)/GI/1系における数値の過渡分布を推定する待ち行列理論の基本的な問題を解決するために,教師付き機械学習手法を適用する。 我々は,これらの分布を適度な地平線長と実用的な設定のために高速かつ正確に予測するニューラルネットワーク機構を開発した。 時間依存性と定常サービス時間分布の最初の数モーメントをベースとしたリカレントニューラルネットワーク(RNN)アーキテクチャ(MBRNN)を用いており、これをモーメントベースリカレントニューラルネットワーク(RNN)と呼ぶ。 私たちの経験的調査は、MBRNNは、最初の4つの到着時間とサービス時間しか必要としていないことを示唆しています。 そこで本研究では,シミュレーションを用いて実際のトレーニングデータセットを生成し,提案手法の精度を2つの異なるテストセットを用いて詳細に評価する。 最悪のパフォーマンスエラーのある設定下であっても、タイムライン全体の平均顧客数は3%未満であることを示す。 シミュレーションモデリングは精度が高いが、シミュレーションよりもMBRNNの利点は実行時であり、MBRNNはほんの数秒で数百のシステムを解析する。 本稿では、G(t)/GI/1に焦点を当てるが、トレーニングデータラベリングはシミュレーションに基づいており(より複雑なシステムに適用できる)、トレーニングはディープラーニングに基づいており、非常に複雑な時系列タスクをキャプチャすることができる。 まとめると、MBRNNは待ち行列システムの過渡解析を行う能力に革命をもたらす可能性がある。

In this paper, we apply a supervised machine-learning approach to solve a fundamental problem in queueing theory: estimating the transient distribution of the number in the system for a G(t)/GI/1. We develop a neural network mechanism that provides a fast and accurate predictor of these distributions for moderate horizon lengths and practical settings. It is based on using a Recurrent Neural Network (RNN) architecture based on the first several moments of the time-dependant inter-arrival and the stationary service time distributions; we call it the Moment-Based Recurrent Neural Network (RNN) method (MBRNN ). Our empirical study suggests MBRNN requires only the first four inter-arrival and service time moments. We use simulation to generate a substantial training dataset and present a thorough performance evaluation to examine the accuracy of our method using two different test sets. We show that even under the configuration with the worst performance errors, the mean number of customers over the entire timeline has an error of less than 3%. While simulation modeling can achieve high accuracy, the advantage of the MBRNN over simulation is runtime, while the MBRNN analyzes hundreds of systems within a fraction of a second. This paper focuses on a G(t)/GI/1; however, the MBRNN approach demonstrated here can be extended to other queueing systems, as the training data labeling is based on simulations (which can be applied to more complex systems) and the training is based on deep learning, which can capture very complex time sequence tasks. In summary, the MBRNN can potentially revolutionize our ability to perform transient analyses of queueing systems.
翻訳日:2024-07-16 03:38:34 公開日:2024-07-11
# マルチロボット被覆経路計画のための量子コンピューティング手法

A Quantum Computing Approach for Multi-robot Coverage Path Planning ( http://arxiv.org/abs/2407.08767v1 )

ライセンス: Link先を確認
Poojith U Rao, Florian Speelman, Balwinder Sodhi, Sachin Kinge, (参考訳) 本稿では,探索・救助・環境モニタリングなどの応用に欠かせない,多車種被覆経路計画(CPP)問題に取り組む。 NPハードの性質のため、最適な解を見つけることは、より大きな問題のサイズで実現不可能となる。 このことは、効率を極端に向上するヒューリスティックなアプローチの発展を動機付けている。 本稿では,量子交換演算子 Ansatz (QAOA) と簡単に統合可能な2次元格子の経路探索手法を提案する。 私たちの貢献には以下のものがある。 1)QAOAを用いて多車CPPを解く目的関数について検討した。 2)提案手法の有効性を保証する理論的証明。 3)実用化のためのQAOA演算子の効率的な構築 4)QAOA実行の可能性を評価するための資源推定。 5)Depth First Searchのような既存のアルゴリズムとの比較。 この研究は、マルチサイクル経路計画の最適化における量子コンピューティングの活用の道を切り開いており、様々なアプリケーションにおける現実の進歩に繋がる可能性がある。

This paper tackles the multi-vehicle Coverage Path Planning (CPP) problem, crucial for applications like search and rescue or environmental monitoring. Due to its NP-hard nature, finding optimal solutions becomes infeasible with larger problem sizes. This motivates the development of heuristic approaches that enhance efficiency even marginally. We propose a novel approach for exploring paths in a 2D grid, specifically designed for easy integration with the Quantum Alternating Operator Ansatz (QAOA), a powerful quantum heuristic. Our contribution includes: 1) An objective function tailored to solve the multi-vehicle CPP using QAOA. 2) Theoretical proofs guaranteeing the validity of the proposed approach. 3) Efficient construction of QAOA operators for practical implementation. 4) Resource estimation to assess the feasibility of QAOA execution. 5) Performance comparison against established algorithms like the Depth First Search. This work paves the way for leveraging quantum computing in optimizing multi-vehicle path planning, potentially leading to real-world advancements in various applications.
翻訳日:2024-07-16 03:38:34 公開日:2024-07-11
# モデル手術 : 簡単なパラメータ編集によるLCMの挙動の制御

Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing ( http://arxiv.org/abs/2407.08770v1 )

ライセンス: Link先を確認
Huanqian Wang, Yang Yue, Rui Lu, Jingxin Shi, Andrew Zhao, Shenzhi Wang, Shiji Song, Gao Huang, (参考訳) 大きな言語モデル(LLM)は、汎用アシスタントとして大きな可能性を示し、強力なタスク理解と問題解決能力を示している。 LLMをAIアシスタントとしてデプロイするには、これらのモデルが、非毒性やジェイルブレイクの試みに対するレジリエンスなど、望ましい行動特性を示すことが不可欠である。 現在の脱毒法や脱毒防止法は、通常、スーパービジョンファインチューニング(SFT)またはヒューマンフィードバックからの強化学習(RLHF)であり、かなりの計算コストを伴う勾配勾配による数十億のパラメータを微調整する必要がある。 さらに、SFTとRLHFによって修正されたモデルは、事前訓練されたモデルから逸脱し、基礎的なLLM能力の低下につながる可能性がある。 本稿では,少数のパラメータを直接編集することで,脱毒化や脱獄耐性など,LDMの特定の挙動を効果的に調節できることを示す。 具体的には,LLMの隠れ状態空間内の2値の挙動ラベルを分類するために,振る舞いプローブと呼ばれる線形分類器を用いる。 本稿では,LLMパラメータの臨界部分集合を同定するアルゴリズムを提案する。 次に、これらのパラメータを行動プローブにシフトすることで、直接編集する。 このような直接パラメータ編集法は推論レベルの計算資源のみを必要とする。 代表的な解毒作業において,本手法は,一般感覚,質問応答,数学などの分野において LLM の一般能力を維持しつつ,RealToxicityPrompts データセットにおける毒性の 90.0 % と ToxiGen 上で 49.2 % の低減を実現していることを示す。 私たちのコードはhttps://github.com/lucywang720/model-surgery.comで利用可能です。

Large Language Models (LLMs) have demonstrated great potential as generalist assistants, showcasing powerful task understanding and problem-solving capabilities. To deploy LLMs as AI assistants, it is crucial that these models exhibit desirable behavioral traits, such as non-toxicity and resilience against jailbreak attempts. Current methods for detoxification or preventing jailbreaking usually involve Supervised Fine-Tuning (SFT) or Reinforcement Learning from Human Feedback (RLHF), which requires finetuning billions of parameters through gradient descent with substantial computation cost. Furthermore, models modified through SFT and RLHF may deviate from the pretrained models, potentially leading to a degradation in foundational LLM capabilities. In this paper, we observe that surprisingly, directly editing a small subset of parameters can effectively modulate specific behaviors of LLMs, such as detoxification and resistance to jailbreaking. Specifically, for a behavior that we aim to avoid, we employ a linear classifier, which we term the behavior probe, to classify binary behavior labels within the hidden state space of the LLM. Using this probe, we introduce an algorithm to identify a critical subset of LLM parameters that significantly influence this targeted behavior. Then we directly edit these selected parameters by shifting them towards the behavior probe. Such a direct parameter editing method necessitates only inference-level computational resources. Experiments demonstrate that in the representative detoxification task, our approach achieves reductions of up to 90.0\% in toxicity on the RealToxicityPrompts dataset and 49.2\% on ToxiGen, while maintaining the LLM's general capabilities in areas such as common sense, question answering, and mathematics. Our code is available at https://github.com/lucywang720/model-surgery.
翻訳日:2024-07-16 03:38:34 公開日:2024-07-11
# 強カオス開系の量子状態に対する粘性の影響

Effects of stickiness on the quantum states of strongly chaotic open systems ( http://arxiv.org/abs/2407.08780v1 )

ライセンス: Link先を確認
Miguel A. Prado Reynoso, Edson M. Signor, Sandra D. Prado, Lea F. Santos, (参考訳) 開放系の量子状態の構造に対する古典的粘性(仮にカオス位相空間の領域に制限された軌道)の影響について検討する。 キックされたローターの標準写像を考察し、閉じた古典写像の強いカオス状態において、粘着性の領域が生き残ることを検証する。 系の位相空間を漏れで走査することにより、量子系の状態の局所化の程度に粘性がどのように影響するかを分析する。 古典的ダウエル時間と有限時間リアプノフ指数と量子的ダウエル時間と量子状態のWehrlエントロピーとの優れた対応を見出した。 我々のアプローチは、古典的なカオス軌道の構造に関する知識を用いて、量子状態の非局在化の度合いを向上または減少させるために漏れをどこに配置するかを決定することができることを示唆している。

We investigate the effects of classical stickiness (orbits temporarily confined to a region of the chaotic phase space) to the structures of the quantum states of an open system. We consider the standard map of the kicked rotor and verify that regions of stickiness survive in the strong chaotic regime of the closed classical map. By scanning the system's phase space with a leak, we analyze how stickiness affects the degree of localization of the states of the quantum system. We find an excellent correspondence between the classical dwell time and finite-time Lyapunov exponents with the quantum dwell time and Wehrl entropy of the quantum states. Our approach suggests that knowledge of the structure of the classically chaotic trajectories can be used to determine where to place the leak to enhance or decrease the degree of delocalization of the quantum states.
翻訳日:2024-07-16 03:38:34 公開日:2024-07-11
# 熱帯代数とグラフポリトープを用いた翻訳不変ベルの不等式の特徴付け

Characterizing Translation-Invariant Bell Inequalities using Tropical Algebra and Graph Polytopes ( http://arxiv.org/abs/2407.08783v1 )

ライセンス: Link先を確認
Mengyao Hu, Eloïc Vallée, Tim Seynnaeve, Patrick Emonts, Jordi Tura, (参考訳) 非局所性は、ベルの不等式違反によって明らかにされる量子物理学の重要な特徴の1つである。 大規模マルチパーティシステムでは、非局所性の特徴付けはすぐに難しい課題となる。 一般的な実践は、対称性、低階の相関器、あるいは局所的な幾何学を利用して不等式のクラスを制限することである。 本稿では,一次元幾何学における有限範囲相関器による変換不変(TI)ベルの不等式を特徴づける。 トロピカル代数テンソルネットワークに基づく新しい方法論を導入し、グラフ理論との関係を強調した。 驚いたことに、TI Bell のポリトープには、システムサイズに関して一様上界にできる極端点が多数存在する。 特定のシステムサイズに対して,ポリトープのすべての頂点を列挙し,与えられたTIベルの不等式の厳密性を特徴付ける効率的な方法を提案する。 私たちの研究で強調された接続は、ベル非局所性(英語版)の文脈で熱帯代数やグラフ理論の分野で開発された概念を再解釈することを可能にする。 この作業は平行な記事[M]を拡張します。 Hu \textit{et al }, arXiv: 2208.02798 (2022)] 同じ主題について。

Nonlocality is one of the key features of quantum physics, which is revealed through the violation of a Bell inequality. In large multipartite systems, nonlocality characterization quickly becomes a challenging task. A common practice is to make use of symmetries, low-order correlators, or exploiting local geometries, to restrict the class of inequalities. In this paper, we characterize translation-invariant (TI) Bell inequalities with finite-range correlators in one-dimensional geometries. We introduce a novel methodology based on tropical algebra tensor networks and highlight its connection to graph theory. Surprisingly, we find that the TI Bell polytope has a number of extremal points that can be uniformly upper-bounded with respect to the system size. We give an efficient method to list all vertices of the polytope for a particular system size, and characterize the tightness of a given TI Bell inequality. The connections highlighted in our work allow us to re-interpret concepts developed in the fields of tropical algebra and graph theory in the context of Bell nonlocality, and vice-versa. This work extends a parallel article [M. Hu \textit{et al.}, arXiv: 2208.02798 (2022)] on the same subject.
翻訳日:2024-07-16 03:38:34 公開日:2024-07-11
# 変調対称性と異常階層構造からの固有混合状態SPT

Intrinsic mixed-state SPT from modulated symmetries and hierarchical structure of anomaly ( http://arxiv.org/abs/2407.08786v1 )

ライセンス: Link先を確認
Yizhi You, Masaki Oshikawa, (参考訳) 我々は、双極子やサブシステム対称性などの変調対称性を特徴とする開量子系において、固有対称性で保護された位相混合状態(mSPT)のクラスを導入する。 興味深いことに、これらのmSPT相は熱平衡下でのギャップを持つハミルトンの基底状態として実現できない。 これらの固有混合状態SPTアンサンブルを特徴づける密度行列の顕微鏡形態は、焼成障害または量子チャネルを含む可溶結合ワイヤモデルを用いて構成される。 フラックス挿入とラウリンの電荷汲み上げの議論を利用して、純状態と混合状態の境界異常の階層構造を詳細に比較した。 最後に、荷電オブザーバのRenyi-N相関関数によって検出できる混合状態アンサンブルにおける境界異常の健全な特徴について検討する。

We introduce a class of intrinsic symmetry-protected topological mixed-state(mSPT) in open quantum systems that feature modulated symmetries, such as dipole and subsystem symmetries. Intriguingly, these mSPT phases cannot be realized as the ground states of a gapped Hamiltonian under thermal equilibrium. The microscopic form of the density matrix characterizing these intrinsic mixed-state SPT ensembles is constructed using solvable coupled-wire models that incorporate quenched disorder or quantum channels. A detailed comparison of the hierarchical structure of boundary anomalies in both pure and mixed states is presented, utilizing flux insertion and Laughlin's charge pumping arguments. Finally, we explore the salient features of boundary anomalies in the mixed-state ensemble, which can be detected through the Renyi-N correlation function of charged observables.
翻訳日:2024-07-16 03:38:34 公開日:2024-07-11
# 画像分類における視覚言語基礎モデルのためのデータ適応的トレースバック

Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification ( http://arxiv.org/abs/2407.08787v1 )

ライセンス: Link先を確認
Wenshuo Peng, Kaipeng Zhang, Yue Yang, Hao Zhang, Yu Qiao, (参考訳) 視覚言語基礎モデルは、適応手法を用いた幅広い下流コンピュータビジョンタスクで驚くほど成功している。 しかし、事前学習データセットを取得するコストが高いため、データに弱い画像テキスト相関を持つペアが多数存在する。 弱いペアのサンプルと呼んでいます。 これらの弱いペアリングサンプルの限界のため、事前学習モデルは事前学習データからすべての知識をマイニングすることができない。 既存の適応手法では、不足している知識を考慮せず、ダウンストリームタスクが無視される上で重要なタスク関連知識につながる可能性がある。 この問題に対処するため、我々はData Adaptive Traceback (DAT)と呼ばれる新しい適応フレームワークを提案する。 具体的には、ゼロショット法を用いて、トレーニング済みデータの最もダウンストリームなタスク関連サブセットを抽出し、ダウンストリームタスクを有効にする。 さらに、擬似ラベルに基づく半教師付き手法を採用し、事前学習画像の再利用と、半教師付き学習における確証バイアス問題に対処するための視覚言語コントラスト学習手法を提案する。 提案手法は,従来の適応手法よりも多種多様なベンチマークデータセットの性能を有意に向上させる。

Vision-language foundation models have been incredibly successful in a wide range of downstream computer vision tasks using adaptation methods. However, due to the high cost of obtaining pre-training datasets, pairs with weak image-text correlation in the data exist in large numbers. We call them weak-paired samples. Due to the limitations of these weak-paired samples, the pre-training model are unable to mine all the knowledge from pre-training data. The existing adaptation methods do not consider the missing knowledge, which may lead to crucial task-related knowledge for the downstream tasks being ignored. To address this issue, we propose a new adaptation framework called Data Adaptive Traceback (DAT). Specifically, we utilize a zero-shot-based method to extract the most downstream task-related subset of the pre-training data to enable the downstream tasks. Furthermore, we adopt a pseudo-label-based semi-supervised technique to reuse the pre-training images and a vision-language contrastive learning method to address the confirmation bias issue in semi-supervised learning. We conduct extensive experiments that show our proposed DAT approach meaningfully improves various benchmark datasets performance over traditional adaptation methods by simply.
翻訳日:2024-07-16 03:38:34 公開日:2024-07-11
# コヒーレント周波数界面における量子ドット光の浄化

Purifying quantum-dot light in a coherent frequency interface ( http://arxiv.org/abs/2407.08788v1 )

ライセンス: Link先を確認
Fabrizio Chiriano, Christopher L. Morrison, Joseph Ho, Thomas Jaeken, Alessandro Fedrizzi, (参考訳) 量子ネットワークは通常、光ファイバーの低損失伝送を利用するためにテレコム波長で動作する。 しかし、InGaAs QDsのような光の非常に区別できない量子状態を発する明るい量子ドット(QDs)は、しばしば近赤外線で光子を放出するため、周波数変換(FC)をテレコムバンドに必要とします。 さらに、これらのネットワークの効果的な性能には、量子放出の信号品質が不可欠である。 本研究では, 周期的に偏極した窒化リチウム導波路において, 単一光子のQD源からCバンドへのスペクトル浄化と周波数シフトを同時に実施する方法を報告する。 本稿では,GHz単位の出力帯域を持つFCを実現するために,逆伝搬方式の差分周波数生成について検討する。 提案手法は,ハイブリット量子ネットワークに高性能な単一エミッタ源を統合するための明確な経路を確立する。

Quantum networks typically operate in the telecom wavelengths to take advantage of low-loss transmission in optical fibres. However, bright quantum dots (QDs) emitting highly indistinguishable quantum states of light, such as InGaAs QDs, often emit photons in the near infrared thus necessitating frequency conversion (FC) to the telecom band. Furthermore, the signal quality of quantum emissions is crucial for the effective performance of these networks. In this work we report a method for simultaneously implementing spectral purification and frequency shifting of single photons from QD sources to the C-band in a periodically poled Lithium Niobate waveguide. We consider difference frequency generation in the counter-propagating configuration to implement FC with the output emission bandwidth in units of GHz. Our approach establishes a clear path to integrating high-performance single-emitter sources in a hybrid quantum network.
翻訳日:2024-07-16 03:38:34 公開日:2024-07-11
# 大規模モデルとは何か : 言語庁の工学的業績の誤り

Large Models of What? Mistaking Engineering Achievements for Human Linguistic Agency ( http://arxiv.org/abs/2407.08790v1 )

ライセンス: Link先を確認
Abeba Birhane, Marek McGann, (参考訳) 本稿では,Large Language Models (LLMs) の言語能力に関するキーは,言語完全性の仮定とデータ完全性の仮定という,少なくとも2つの根拠のない仮定に基づいている,と論じる。 言語完全性は、'a natural language'のような明瞭で完全なものが存在すると仮定し、その本質的な特徴はLLMによって効果的かつ包括的にモデル化できる。 データ完全性の仮定は、言語がデータによって定量化され、完全にキャプチャされるという信念に依存している。 認知科学への活発なアプローチの中で働くことは、区別された完全なことではなく、言語が行動の手段または方法であることを明確にする。 ランゲージングは、完全なモデリングや包括的なモデリングを許容できるものではない。 実効性の観点からは、LLMには欠落しており、原則的に現在のアーキテクチャと相容れないと思われる、実施、参加、そして不行の3つの重要な特徴を識別する。 これらの欠如は、LLMは現在は存在せず、現在の形態では人間のように言語的エージェントにはならないことを示唆している、と我々は主張する。 本稿では,高度に制御されたオンライン環境における人間の言語活動に対する高い利害関係のパターンである「アルゴスピーク」の現象を通して,特にその点を説明する。 これらの点に基づいて,LLMエージェンシーと能力に関するセンセーショナルかつ誤解を招く主張は,人間の言語とは何か,LLMとは何かという深い誤解から生じると結論づける。

In this paper we argue that key, often sensational and misleading, claims regarding linguistic capabilities of Large Language Models (LLMs) are based on at least two unfounded assumptions; the assumption of language completeness and the assumption of data completeness. Language completeness assumes that a distinct and complete thing such as `a natural language' exists, the essential characteristics of which can be effectively and comprehensively modelled by an LLM. The assumption of data completeness relies on the belief that a language can be quantified and wholly captured by data. Work within the enactive approach to cognitive science makes clear that, rather than a distinct and complete thing, language is a means or way of acting. Languaging is not the kind of thing that can admit of a complete or comprehensive modelling. From an enactive perspective we identify three key characteristics of enacted language; embodiment, participation, and precariousness, that are absent in LLMs, and likely incompatible in principle with current architectures. We argue that these absences imply that LLMs are not now and cannot in their present form be linguistic agents the way humans are. We illustrate the point in particular through the phenomenon of `algospeak', a recently described pattern of high stakes human language activity in heavily controlled online environments. On the basis of these points, we conclude that sensational and misleading claims about LLM agency and capabilities emerge from a deep misconception of both what human language is and what LLMs are.
翻訳日:2024-07-16 03:38:34 公開日:2024-07-11
# ProxyGPT:AIチャットボットの匿名クエリを(Un)Trustworthy Browserプロキシで実現

ProxyGPT: Enabling Anonymous Queries in AI Chatbots with (Un)Trustworthy Browser Proxies ( http://arxiv.org/abs/2407.08792v1 )

ライセンス: Link先を確認
Dzung Pham, Jade Sheffey, Chau Minh Pham, Amir Houmansadr, (参考訳) AIを利用したチャットボット(ChatGPT、Claudeなど)では、ユーザーはメールアドレスと電話番号を使ってアカウントを作成する必要がある。 これらのチャットボットは、機密情報に関わるタスクにますます使われつつあるため、チャットボットプロバイダがユーザーデータをどう扱うかというプライバシー上の懸念が高まっている。 これらの問題に対処するために、人気のあるチャットボットプラットフォームにおける匿名クエリを可能にするプライバシ強化システムであるProxyGPTを提案する。 ProxyGPTはボランティアプロキシを利用してユーザクエリを代行し、チャットボットユーザにネットワークレベルの匿名性を提供する。 このシステムは、TLSが支援するデータ証明、エンドツーエンドの暗号化、匿名支払いなどによるコンテンツ整合性、およびユーザビリティと持続可能性などの重要なセキュリティ特性をサポートするように設計されている。 本稿では,プライバシー,セキュリティ,整合性を徹底的に分析し,特にプライベートチャットボットクエリ合成分野における今後の研究の方向性を明らかにする。 われわれの人間による評価によると、従来のAIチャットボットと比較して、ProxyGPTはユーザーのアイデンティティをチャットボットプロバイダと共有することをためらうシナリオにおいて、ユーザーのプライバシー意識を高めることができる。 概念実証は一般的なチャットボットよりもレイテンシが高いが、人間のインタビュー参加者は、匿名性に対する許容できるトレードオフだと考えている。 私たちの知る限りでは、ProxyGPTはプライバシを保存するAIチャットボットのための、初めての包括的なプロキシベースのソリューションです。 私たちのコードベースはhttps://github.com/dzungvpham/proxygpt.comで公開されています。

AI-powered chatbots (ChatGPT, Claude, etc.) require users to create an account using their email and phone number, thereby linking their personally identifiable information to their conversational data and usage patterns. As these chatbots are increasingly being used for tasks involving sensitive information, privacy concerns have been raised about how chatbot providers handle user data. To address these concerns, we present ProxyGPT, a privacy-enhancing system that enables anonymous queries in popular chatbot platforms. ProxyGPT leverages volunteer proxies to submit user queries on their behalf, thus providing network-level anonymity for chatbot users. The system is designed to support key security properties such as content integrity via TLS-backed data provenance, end-to-end encryption, and anonymous payment, while also ensuring usability and sustainability. We provide a thorough analysis of the privacy, security, and integrity of our system and identify various future research directions, particularly in the area of private chatbot query synthesis. Our human evaluation shows that ProxyGPT offers users a greater sense of privacy compared to traditional AI chatbots, especially in scenarios where users are hesitant to share their identity with chatbot providers. Although our proof-of-concept has higher latency than popular chatbots, our human interview participants consider this to be an acceptable trade-off for anonymity. To the best of our knowledge, ProxyGPT is the first comprehensive proxy-based solution for privacy-preserving AI chatbots. Our codebase is available at https://github.com/dzungvpham/proxygpt.
翻訳日:2024-07-16 03:38:34 公開日:2024-07-11
# 犯罪現場映像再構成におけるニューラル・ラジアンス・フィールドの可能性

Feasibility of Neural Radiance Fields for Crime Scene Video Reconstruction ( http://arxiv.org/abs/2407.08795v1 )

ライセンス: Link先を確認
Shariq Nadeem Malik, Min Hao Chee, Dayan Mario Anthony Perera, Chern Hong Lim, (参考訳) 本稿では,現場の入力映像から犯罪現場を再構築するために,NeRFモデルのバリエーションを利用することの可能性について検討し,その可能性を検討することを目的とする。 我々は,多目的合成,変形可能な合成,照明という,犯罪現場の再構築に関して,NeRFの3つの主要なイノベーションに注目している。 そこで我々は,犯罪現場を映像で再現するために必要な要件に対して,そのイノベーションの進展を分析した。

This paper aims to review and determine the feasibility of using variations of NeRF models in order to reconstruct crime scenes given input videos of the scene. We focus on three main innovations of NeRF when it comes to reconstructing crime scenes: Multi-object Synthesis, Deformable Synthesis, and Lighting. From there, we analyse its innovation progress against the requirements to be met in order to be able to reconstruct crime scenes with given videos of such scenes.
翻訳日:2024-07-16 03:38:34 公開日:2024-07-11
# 高レベル合成のための深部インバース設計

Deep Inverse Design for High-Level Synthesis ( http://arxiv.org/abs/2407.08797v1 )

ライセンス: Link先を確認
Ping Chang, Tosiron Adegbija, Yuchao Liao, Claudio Talarico, Ao Li, Janet Roveda, (参考訳) 高レベル合成(HLS)は、デジタル回路設計の自動化を大幅に進歩させたが、プラグマチューニングにおける専門知識と時間の必要性は依然として困難である。 既存の設計空間探索(DSE)のソリューションは、ヒューリスティックな手法を採用し、さらなる最適化ポテンシャルや予測モデルに不可欠な情報が欠如し、HLSの時間的消費の性質と設計空間の指数的成長のために十分な一般化が欠如している。 これらの課題に対処するために、グラフニューラルネットワークと生成モデルを統合する新しいアプローチである、HLSのためのDeep Inverse Design(DID4HLS)を提案する。 DID4HLSは、HLS後のデータから設計機能の条件分布を学習することで、計算集約アルゴリズムを目的としたハードウェア設計を反復的に最適化する。 提案手法は4つの最先端DSEベースラインと比較して平均基準セット(ADRS)平均距離42.5%の改善を達成し,高いロバスト性および効率性を示した。

High-level synthesis (HLS) has significantly advanced the automation of digital circuits design, yet the need for expertise and time in pragma tuning remains challenging. Existing solutions for the design space exploration (DSE) adopt either heuristic methods, lacking essential information for further optimization potential, or predictive models, missing sufficient generalization due to the time-consuming nature of HLS and the exponential growth of the design space. To address these challenges, we propose Deep Inverse Design for HLS (DID4HLS), a novel approach that integrates graph neural networks and generative models. DID4HLS iteratively optimizes hardware designs aimed at compute-intensive algorithms by learning conditional distributions of design features from post-HLS data. Compared to four state-of-the-art DSE baselines, our method achieved an average improvement of 42.5% on average distance to reference set (ADRS) compared to the best-performing baselines across six benchmarks, while demonstrating high robustness and efficiency.
翻訳日:2024-07-16 01:46:09 公開日:2024-07-11
# スパースソリューション法による肺癌画像分類のための局所クラスタリング

Local Clustering for Lung Cancer Image Classification via Sparse Solution Technique ( http://arxiv.org/abs/2407.08800v1 )

ライセンス: Link先を確認
Jackson Hamel, Ming-Jun Lai, Zhaiming Shen, Ye Tian, (参考訳) 本研究では,スパース法に基づく局所クラスタリング手法を用いて,医用画像,特に肺癌画像分類タスクについて検討する。 重み付きグラフの頂点としてのイメージと,グラフのエッジとしてのイメージの対の類似性について検討する。 同じクラスタ内の頂点は、同様の特徴や特性を共有することができるため、グラフクラスタリング技術の応用は画像分類に非常に有用である。 近年,グラフクラスタリングのための線形システムのスパース解に基づく手法が,スペクトルクラスタリングなどの従来のクラスタリング手法よりも効率的にクラスタを識別できることがわかった。 画像分類のための線形システムのスパース解に基づく2つの新しい局所クラスタリング手法を提案する。 さらに,ボックススプラインをベースとしたタイトウェーブレット・フレームレットを用いてこれらの画像のクリーニングを行い,クラスタリング前により優れた隣接行列を構築する。 本手法の性能は画像の分類に非常に有効であることが示されている。 私たちのアプローチは、他の最先端のアプローチと比較して、はるかに効率的で、好ましくないか、等しく効果的です。 最後に、ラベル付き画像の数を増やすために、さらに人工的な画像データを構築するために、2つの画像変形法を指摘し、その点について述べる。

In this work, we propose to use a local clustering approach based on the sparse solution technique to study the medical image, especially the lung cancer image classification task. We view images as the vertices in a weighted graph and the similarity between a pair of images as the edges in the graph. The vertices within the same cluster can be assumed to share similar features and properties, thus making the applications of graph clustering techniques very useful for image classification. Recently, the approach based on the sparse solutions of linear systems for graph clustering has been found to identify clusters more efficiently than traditional clustering methods such as spectral clustering. We propose to use the two newly developed local clustering methods based on sparse solution of linear system for image classification. In addition, we employ a box spline-based tight-wavelet-framelet method to clean these images and help build a better adjacency matrix before clustering. The performance of our methods is shown to be very effective in classifying images. Our approach is significantly more efficient and either favorable or equally effective compared with other state-of-the-art approaches. Finally, we shall make a remark by pointing out two image deformation methods to build up more artificial image data to increase the number of labeled images.
翻訳日:2024-07-16 01:46:09 公開日:2024-07-11
# DG-PIC: ポイントクラウド理解のためのドメイン一般化ポイントインコンテキスト学習

DG-PIC: Domain Generalized Point-In-Context Learning for Point Cloud Understanding ( http://arxiv.org/abs/2407.08801v1 )

ライセンス: Link先を確認
Jincen Jiang, Qianyu Zhou, Yuhang Li, Xuequan Lu, Meili Wang, Lizhuang Ma, Jian Chang, Jian Jun Zhang, (参考訳) 最近のクラウド理解研究は、異なるドメイン間の分散シフトのため、目に見えないデータのパフォーマンス低下に悩まされている。 近年の研究ではドメイン一般化(DG)技術を用いて、ドメイン不変の機能を学ぶことでこれを緩和しているが、そのほとんどは単一のタスクのために設計され、テストデータの可能性を無視している。 In-Context Learning (ICL)はマルチタスク学習能力を示しているが、通常は高品質なコンテキストリッチなデータに依存し、単一のデータセットを考慮し、ポイントクラウド理解において研究されることはめったにない。 本稿では、複数のドメインと複数のタスクを1つの統合モデルで処理し、ドメイン一般化ポイントクラウド理解のための新しい、実用的でマルチドメインのマルチタスク設定を提案する。 この目的のために、テスト時に様々なタスクやドメインにまたがる一般化性を高めるドメイン一般化ポイント・イン・コンテキスト・ラーニング(DG-PIC)を提案する。 特に、ソースドメインを表現するための大域的な形状と局所レベルの幾何学的構造と、マクロレベルのドメイン意味情報とマイクロレベルのパッチ位置関係の両方を活用して、ターゲットデータをソースドメインに近づけるデュアルレベルのテスト時間特徴シフト機構を考察する。 我々のDG-PICはテスト中にモデル更新を一切必要とせず、未確認のドメインや複数のタスクを処理できる。 この新しい設定のベンチマークも導入しています。 総合的な実験により、DG-PICは最先端技術を大きく上回っていることが示された。

Recent point cloud understanding research suffers from performance drops on unseen data, due to the distribution shifts across different domains. While recent studies use Domain Generalization (DG) techniques to mitigate this by learning domain-invariant features, most are designed for a single task and neglect the potential of testing data. Despite In-Context Learning (ICL) showcasing multi-task learning capability, it usually relies on high-quality context-rich data and considers a single dataset, and has rarely been studied in point cloud understanding. In this paper, we introduce a novel, practical, multi-domain multi-task setting, handling multiple domains and multiple tasks within one unified model for domain generalized point cloud understanding. To this end, we propose Domain Generalized Point-In-Context Learning (DG-PIC) that boosts the generalizability across various tasks and domains at testing time. In particular, we develop dual-level source prototype estimation that considers both global-level shape contextual and local-level geometrical structures for representing source domains and a dual-level test-time feature shifting mechanism that leverages both macro-level domain semantic information and micro-level patch positional relationships to pull the target data closer to the source ones during the testing. Our DG-PIC does not require any model updates during the testing and can handle unseen domains and multiple tasks, \textit{i.e.,} point cloud reconstruction, denoising, and registration, within one unified model. We also introduce a benchmark for this new setting. Comprehensive experiments demonstrate that DG-PIC outperforms state-of-the-art techniques significantly.
翻訳日:2024-07-16 01:46:09 公開日:2024-07-11
# PID加速時間差アルゴリズム

PID Accelerated Temporal Difference Algorithms ( http://arxiv.org/abs/2407.08803v1 )

ライセンス: Link先を確認
Mark Bedaywi, Amin Rakhsha, Amir-massoud Farahmand, (参考訳) 長い水平タスクは大きな割引係数を持ち、従来の強化学習(RL)アルゴリズムでは困難である。 価値反復(Value Iteration)や時間差分(TD)学習(TD)学習(TD)のようなアルゴリズムは、収束速度が遅く、これらのタスクでは非効率になる。 遷移分布が与えられると、PID VIが最近導入され、制御理論のアイデアを用いて価値反復の収束を加速した。 そこで本研究では,環境からのサンプルのみを利用できるRL設定のためのPID TD LearningとPID Q-Learningアルゴリズムを提案する。 それらの収束と加速の理論的解析を従来のものと比較する。 また、雑音の存在下でPIDゲインを適応させる手法を導入し、その効果を実証的に検証する。

Long-horizon tasks, which have a large discount factor, pose a challenge for most conventional reinforcement learning (RL) algorithms. Algorithms such as Value Iteration and Temporal Difference (TD) learning have a slow convergence rate and become inefficient in these tasks. When the transition distributions are given, PID VI was recently introduced to accelerate the convergence of Value Iteration using ideas from control theory. Inspired by this, we introduce PID TD Learning and PID Q-Learning algorithms for the RL setting in which only samples from the environment are available. We give theoretical analysis of their convergence and acceleration compared to their traditional counterparts. We also introduce a method for adapting PID gains in the presence of noise and empirically verify its effectiveness.
翻訳日:2024-07-16 01:46:09 公開日:2024-07-11
# HO-FMN: 高速最小ノルム攻撃のためのハイパーパラメータ最適化

HO-FMN: Hyperparameter Optimization for Fast Minimum-Norm Attacks ( http://arxiv.org/abs/2407.08806v1 )

ライセンス: Link先を確認
Raffaele Mura, Giuseppe Floris, Luca Scionis, Giorgio Piras, Maura Pintor, Ambra Demontis, Giorgio Giacinto, Battista Biggio, Fabio Roli, (参考訳) グラディエントベースの攻撃は、機械学習モデルの堅牢性を評価する主要なツールである。 しかし、多くの攻撃は、固定損失関数、オプティマイザ、ステップサイズスケジューラ、デフォルトのハイパーパラメータを使用するため、過度に最適化的な評価を提供する傾向がある。 本研究では,損失,最適化,ステップサイズスケジューラ,ハイパーパラメータを動的に調整可能な,よく知られた高速最小ノルム攻撃アルゴリズムのパラメトリック変動を提案することで,これらの制約に対処する。 我々は12のロバストモデルを再評価し、追加のチューニングを必要とせずに敵の摂動が小さくなることを示した。 これはまた、摂動予算の関数として敵の堅牢性を報告し、固定予算攻撃によって提供されるものよりも完全な評価を提供すると同時に、効率を保っている。 オープンソースコードはhttps://github.com/pralab/HO-FMN.comで公開しています。

Gradient-based attacks are a primary tool to evaluate robustness of machine-learning models. However, many attacks tend to provide overly-optimistic evaluations as they use fixed loss functions, optimizers, step-size schedulers, and default hyperparameters. In this work, we tackle these limitations by proposing a parametric variation of the well-known fast minimum-norm attack algorithm, whose loss, optimizer, step-size scheduler, and hyperparameters can be dynamically adjusted. We re-evaluate 12 robust models, showing that our attack finds smaller adversarial perturbations without requiring any additional tuning. This also enables reporting adversarial robustness as a function of the perturbation budget, providing a more complete evaluation than that offered by fixed-budget attacks, while remaining efficient. We release our open-source code at https://github.com/pralab/HO-FMN.
翻訳日:2024-07-16 01:46:09 公開日:2024-07-11
# CXR-Agent:不確実性を考慮した胸部X線解釈のための視覚言語モデル

CXR-Agent: Vision-language models for chest X-ray interpretation with uncertainty aware radiology reporting ( http://arxiv.org/abs/2407.08811v1 )

ライセンス: Link先を確認
Naman Sharma, (参考訳) 近年、複雑な画像の解釈や、高度な推論を用いた自然言語記述の生成において、大きな視覚言語モデルが可能性を示している。 医学の本質的にマルチモーダルな性質は、スキャンやテキストベースの医療履歴をレポートに取り入れることで、これらのAI能力の飛躍の恩恵を受けることができる。 胸部X線を複数のデータセットやベンチマークで解釈するための、公開、最先端、基礎的な視覚言語モデルを評価する。 我々は線形プローブを用いて、CheXagentのビジョントランスフォーマーやQフォーマーなどの様々なコンポーネントの性能を評価し、業界標準のトーチX線ビジョンモデルより優れている。 重要なことに、視覚言語モデルは、しばしば自信のある言語に幻覚し、臨床解釈を遅くする。 これらの知見に基づいて,CheXagentの線形プローブとBioViL-Tの句接地ツールを用いたエージェントベース視覚言語によるレポート生成手法を開発した。 NLP測定値,胸部X線検査値,臨床評価値を用いて視覚言語エージェントを徹底的に評価し,呼吸専門医によるユーザスタディを実施するための評価プラットフォームを開発した。 その結果,AIレポートの精度,解釈可能性,安全性が大幅に向上した。 正常検診と異常検診を別々に行うことの重要性を強調した。 最後に、これらの大きなビジョン言語モデルに見られる過適合に対処するために、データ拡張とともに、より大きなペア(スキャンとレポート)データセットの必要性を強調します。

Recently large vision-language models have shown potential when interpreting complex images and generating natural language descriptions using advanced reasoning. Medicine's inherently multimodal nature incorporating scans and text-based medical histories to write reports makes it conducive to benefit from these leaps in AI capabilities. We evaluate the publicly available, state of the art, foundational vision-language models for chest X-ray interpretation across several datasets and benchmarks. We use linear probes to evaluate the performance of various components including CheXagent's vision transformer and Q-former, which outperform the industry-standard Torch X-ray Vision models across many different datasets showing robust generalisation capabilities. Importantly, we find that vision-language models often hallucinate with confident language, which slows down clinical interpretation. Based on these findings, we develop an agent-based vision-language approach for report generation using CheXagent's linear probes and BioViL-T's phrase grounding tools to generate uncertainty-aware radiology reports with pathologies localised and described based on their likelihood. We thoroughly evaluate our vision-language agents using NLP metrics, chest X-ray benchmarks and clinical evaluations by developing an evaluation platform to perform a user study with respiratory specialists. Our results show considerable improvements in accuracy, interpretability and safety of the AI-generated reports. We stress the importance of analysing results for normal and abnormal scans separately. Finally, we emphasise the need for larger paired (scan and report) datasets alongside data augmentation to tackle overfitting seen in these large vision-language models.
翻訳日:2024-07-16 01:46:09 公開日:2024-07-11
# FairDomain: 医用画像のクロスドメイン化と分類における公平性の実現

FairDomain: Achieving Fairness in Cross-Domain Medical Image Segmentation and Classification ( http://arxiv.org/abs/2407.08813v1 )

ライセンス: Link先を確認
Yu Tian, Congcong Wen, Min Shi, Muhammad Muneeb Afzal, Hao Huang, Muhammad Osama Khan, Yan Luo, Yi Fang, Mengyu Wang, (参考訳) 人工知能(AI)の公平性への対処、特に医療AIは、適切な医療結果の確保に不可欠である。 公平性を高めるための最近の取り組みは、医療AIの新しい方法論とデータセットを導入している。 しかし、ドメイン転送の設定による公平性の問題はほとんど解明されていないが、クリニックが患者診断のために異なる画像技術(例えば、異なる網膜画像モダリティ)に依存していることが一般的である。 本稿では,ドメインシフト下でのアルゴリズムフェアネスの先駆的研究であるFairDomainについて,医学的セグメンテーションと分類タスクの両方に最先端領域適応(DA)アルゴリズムと一般化(DG)アルゴリズムを用いて,異なるドメイン間でバイアスがどのように移行されるかを理解する。 また,多種多様なDAおよびDGアルゴリズムに適応し,自己注意を用いて特徴の重要度を調整することによる公平性向上を目的とした,新たなプラグイン・アンド・プレイ・フェア・パーソナリティ・アテンション(FIA)モジュールについても紹介する。 さらに,医学的セグメンテーションと分類タスクにおける同一患者コホートに対して,2対の画像モダリティを併用した最初のフェアネス中心のデータセットをキュレートし,ドメインシフトシナリオにおけるフェアネスを厳格に評価する。 ソースとターゲットドメイン間の人口分布のばらつきの相違を除くと、ドメイン転送モデルの性能のより明確な定量化が可能になる。 提案したFIAは,各領域のシフト設定(DAとDG)の公平性を考慮したモデル性能を大幅に向上させ,セグメンテーションと分類の両方において既存手法より優れていることを示す。 コードとデータはhttps://ophai.hms.harvard.edu/datasets/harvard-fair domain20kでアクセスできる。

Addressing fairness in artificial intelligence (AI), particularly in medical AI, is crucial for ensuring equitable healthcare outcomes. Recent efforts to enhance fairness have introduced new methodologies and datasets in medical AI. However, the fairness issue under the setting of domain transfer is almost unexplored, while it is common that clinics rely on different imaging technologies (e.g., different retinal imaging modalities) for patient diagnosis. This paper presents FairDomain, a pioneering systemic study into algorithmic fairness under domain shifts, employing state-of-the-art domain adaptation (DA) and generalization (DG) algorithms for both medical segmentation and classification tasks to understand how biases are transferred between different domains. We also introduce a novel plug-and-play fair identity attention (FIA) module that adapts to various DA and DG algorithms to improve fairness by using self-attention to adjust feature importance based on demographic attributes. Additionally, we curate the first fairness-focused dataset with two paired imaging modalities for the same patient cohort on medical segmentation and classification tasks, to rigorously assess fairness in domain-shift scenarios. Excluding the confounding impact of demographic distribution variation between source and target domains will allow clearer quantification of the performance of domain transfer models. Our extensive evaluations reveal that the proposed FIA significantly enhances both model performance accounted for fairness across all domain shift settings (i.e., DA and DG) with respect to different demographics, which outperforms existing methods on both segmentation and classification. The code and data can be accessed at https://ophai.hms.harvard.edu/datasets/harvard-fairdomain20k.
翻訳日:2024-07-16 01:46:09 公開日:2024-07-11
# MAGNET:適応的なグラディエントに基づくトークン化による言語モデルの多言語フェアネスの改善

MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization ( http://arxiv.org/abs/2407.08818v1 )

ライセンス: Link先を確認
Orevaoghene Ahia, Sachin Kumar, Hila Gonen, Valentin Hoffman, Tomasz Limisiewicz, Yulia Tsvetkov, Noah A. Smith, (参考訳) マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。 特に、以前の研究では、現在のトークン化アルゴリズムが非ラテン語のスクリプト言語に導入している複数のモデリングバイアスが報告されている。 本研究では,適応的勾配に基づくサブワードトークン化によるオーバーセグメンテーションを低減するために,多言語適応型勾配ベースのトークン化であるMAGNETを提案する。 MAGNETは、モデル内のサブモジュールを介してシーケンス内のバイトトークン間のセグメント境界を予測し、内部境界予測器(トークン化器)として機能する。 トレーニング中に1つの境界予測器を統合し、次のトークン予測目的とともに確率的再パラメータ化によってエンドツーエンドに最適化することにより、シーケンス間の均一な圧縮を目的とした、従来型の勾配ベースのトークン化手法。 しかし、このアプローチは多言語設定で非ラテン語のスクリプト言語を過剰に分離する。 対照的に、MAGNETはカスタマイズ可能なアーキテクチャを提供しており、バイトレベルのシーケンスは言語固有の予測子を通してルーティングされ、それぞれがそれぞれの言語スクリプトに最適化されている。 このモジュラリティは、以前の方法と比較して、異なる言語スクリプト間の公平なセグメンテーションの粒度を強制する。 広範な実験により,セグメンテーションの格差を減らすことに加えて,MAGNETはより高速な言語モデリングを可能にし,下流のユーティリティを向上させることを実証した。

In multilingual settings, non-Latin scripts and low-resource languages are usually disadvantaged in terms of language models' utility, efficiency, and cost. Specifically, previous studies have reported multiple modeling biases that the current tokenization algorithms introduce to non-Latin script languages, the main one being over-segmentation. In this work, we propose MAGNET; multilingual adaptive gradient-based tokenization to reduce over-segmentation via adaptive gradient-based subword tokenization. MAGNET learns to predict segment boundaries between byte tokens in a sequence via sub-modules within the model, which act as internal boundary predictors (tokenizers). Previous gradient-based tokenization methods aimed for uniform compression across sequences by integrating a single boundary predictor during training and optimizing it end-to-end through stochastic reparameterization alongside the next token prediction objective. However, this approach still results in over-segmentation for non-Latin script languages in multilingual settings. In contrast, MAGNET offers a customizable architecture where byte-level sequences are routed through language-script-specific predictors, each optimized for its respective language script. This modularity enforces equitable segmentation granularity across different language scripts compared to previous methods. Through extensive experiments, we demonstrate that in addition to reducing segmentation disparities, MAGNET also enables faster language modelling and improves downstream utility.
翻訳日:2024-07-16 01:46:09 公開日:2024-07-11
# ルールベース、ニューラル、LLMのバックトランスレーション:ラディンの変数からの比較

Rule-Based, Neural and LLM Back-Translation: Comparative Insights from a Variant of Ladin ( http://arxiv.org/abs/2407.08819v1 )

ライセンス: Link先を確認
Samuel Frontull, Georg Moser, (参考訳) 本稿では,Ladin の機械翻訳,特に Val Badia 変種に対する逆翻訳アプローチの違いが与える影響について検討する。 この言語で利用可能な並列データ(18k Ladin-Italian文ペアのみ)が限られていることを考慮し、ラディン-Italian向けに微調整された多言語ニューラルマシン翻訳モデルの性能について検討する。 利用可能な認証データに加えて、細調整ニューラルモデル、この言語ペア用に特別に開発されたルールベースシステム、および大きな言語モデルという3つの異なるモデルを用いて、さらなる翻訳を合成する。 実験により、この低リソースシナリオにおいて、全てのアプローチが同等の翻訳品質を実現するが、ラウンドトリップ変換はモデル性能の違いを浮き彫りにすることを示した。

This paper explores the impact of different back-translation approaches on machine translation for Ladin, specifically the Val Badia variant. Given the limited amount of parallel data available for this language (only 18k Ladin-Italian sentence pairs), we investigate the performance of a multilingual neural machine translation model fine-tuned for Ladin-Italian. In addition to the available authentic data, we synthesise further translations by using three different models: a fine-tuned neural model, a rule-based system developed specifically for this language pair, and a large language model. Our experiments show that all approaches achieve comparable translation quality in this low-resource scenario, yet round-trip translations highlight differences in model performance.
翻訳日:2024-07-16 01:46:09 公開日:2024-07-11
# FedMedICL:Federated Medical Imagingにおける分布変化の全体的評価に向けて

FedMedICL: Towards Holistic Evaluation of Distribution Shifts in Federated Medical Imaging ( http://arxiv.org/abs/2407.08822v1 )

ライセンス: Link先を確認
Kumail Alhamoud, Yasir Ghunaim, Motasem Alfarra, Thomas Hartvigsen, Philip Torr, Bernard Ghanem, Adel Bibi, Marzyeh Ghassemi, (参考訳) 医療画像AIモデルが臨床的に影響を及ぼすためには、それらを一般化する必要がある。 しかし、このゴールは妨げられている。 (i)時制、人口統計、ラベルシフトなど、多種多様な分布シフト (II)単一医療機関内でサイロ化されているデータセットの多様性に制限がある。 これらの制限は、連合学習への関心を喚起しているが、現在の評価ベンチマークでは、異なるシフトを同時に評価することができない。 しかし、実際の医療環境では、複数のシフトが共存するが、医療画像のパフォーマンスへの影響は未検討である。 そこで我々はFedMedICLという統合されたフレームワークとベンチマークを導入し,フェデレートされた医用画像の課題を総合的に評価し,ラベル,人口分布,時間分布の変化を同時に把握した。 6つの多様な医用画像データセット(550GPU時間)について、いくつかの一般的な手法を総合的に評価した。 さらに、FedMedICLを用いて、病院内における新型コロナウイルスの伝播をシミュレートし、病気の流行のパンデミックに適応できるかを評価する。 単純なバッチ分散手法がFedMedICL実験の平均性能を上回っていることがわかった。 この発見は、現実の医療環境におけるこれまでの狭いベンチマークの結果の適用性に疑問を呈する。

For medical imaging AI models to be clinically impactful, they must generalize. However, this goal is hindered by (i) diverse types of distribution shifts, such as temporal, demographic, and label shifts, and (ii) limited diversity in datasets that are siloed within single medical institutions. While these limitations have spurred interest in federated learning, current evaluation benchmarks fail to evaluate different shifts simultaneously. However, in real healthcare settings, multiple types of shifts co-exist, yet their impact on medical imaging performance remains unstudied. In response, we introduce FedMedICL, a unified framework and benchmark to holistically evaluate federated medical imaging challenges, simultaneously capturing label, demographic, and temporal distribution shifts. We comprehensively evaluate several popular methods on six diverse medical imaging datasets (totaling 550 GPU hours). Furthermore, we use FedMedICL to simulate COVID-19 propagation across hospitals and evaluate whether methods can adapt to pandemic changes in disease prevalence. We find that a simple batch balancing technique surpasses advanced methods in average performance across FedMedICL experiments. This finding questions the applicability of results from previous, narrow benchmarks in real-world medical settings.
翻訳日:2024-07-16 01:46:09 公開日:2024-07-11
# 偉大な力が大きな責任をもたらす - ソフトウェアエンジニアの役割

With Great Power Comes Great Responsibility: The Role of Software Engineers ( http://arxiv.org/abs/2407.08823v1 )

ライセンス: Link先を確認
Stefanie Betz, Birgit Penzenstadler, (参考訳) ソフトウェアエンジニアリングの展望は、デジタルトランスフォーメーションとAIの上昇の中で急速に進化しており、ソフトウェアエンジニアの役割と責任に大きな変化をもたらしている。 この進化は、コーディングにおける言語モデルに基づくアプローチの導入や、テクノロジーの深い社会的・環境的影響によって引き起こされるより深いシフトといった、即時的な変化を含む。 緊急性にもかかわらず、これらの進化する役割に適応する上で、ラグは持続する。 このビジョンペーパーは、ソフトウェアエンジニアの役割と責任に関する継続的な議論とリフレクションを促進することで、進化する専門職に固有の複雑さと倫理的考察をナビゲートする能力を持つ、新しい世代のソフトウェアエンジニアを育成することを目指している。

The landscape of software engineering is evolving rapidly amidst the digital transformation and the ascendancy of AI, leading to profound shifts in the role and responsibilities of software engineers. This evolution encompasses both immediate changes, such as the adoption of Language Model-based approaches in coding, and deeper shifts driven by the profound societal and environmental impacts of technology. Despite the urgency, there persists a lag in adapting to these evolving roles. By fostering ongoing discourse and reflection on Software Engineers role and responsibilities, this vision paper seeks to cultivate a new generation of software engineers equipped to navigate the complexities and ethical considerations inherent in their evolving profession.
翻訳日:2024-07-16 01:46:09 公開日:2024-07-11
# Cryptic Crossword Clue Answersが正しいことを証明する

Proving that Cryptic Crossword Clue Answers are Correct ( http://arxiv.org/abs/2407.08824v1 )

ライセンス: Link先を確認
Martin Andrews, Sam Witteveen, (参考訳) クリプティックなクロスワードの手がかりは、新しいテストセットを複数の国際新聞によって毎日リリースする、認知的な課題である。 それぞれの秘密の手がかりには、クロスワードグリッドに置かれる答えの定義(通常のクロスワードと共通する)と、その答えが正しいことを証明する'ワードプレイ'の両方が含まれている(すなわち、人間の解答器は、その答えを確認するためにクロスワードを必要とせずに、答えが正しいことを確信することができる)。 既存の語彙証明フレームワーク(LLMが作成したPython証明を運用する)を用いて,単語の‘works’の有無に基づいて,正しい解答とほぼ正しい解答を区別可能であることを示す。

Cryptic crossword clues are challenging cognitive tasks, for which new test sets are released on a daily basis by multiple international newspapers. Each cryptic clue contains both the definition of the answer to be placed in the crossword grid (in common with regular crosswords), and `wordplay' that proves that the answer is correct (i.e. a human solver can be confident that an answer is correct without needing crossing words to confirm it). Using an existing cryptic wordplay proving framework (operating on Python proofs created by an LLM), we show that it is possible to distinguish between correct answers and almost-correct ones based upon whether the wordplay `works'.
翻訳日:2024-07-16 01:46:09 公開日:2024-07-11
# 量子コンピュータのベンチマーク

Benchmarking quantum computers ( http://arxiv.org/abs/2407.08828v1 )

ライセンス: Link先を確認
Timothy Proctor, Kevin Young, Andrew D. Baczewski, Robin Blume-Kohout, (参考訳) 量子コンピューティング技術の急速な開発ペースは、量子コンピューティングハードウェアとソフトウェアの性能を評価するためのベンチマークの急増を引き起こした。 優れたベンチマークは、科学者、エンジニア、プログラマ、ユーザに対して、コンピュータシステムのパワーを理解する力を与えます。 本稿では,量子コンピュータベンチマークの科学を概観する。 我々は、ベンチマークとベンチマークの役割、そして優れたベンチマークが、有用な量子計算の長期的な目標、すなわち「量子ユーティリティ」に向かってどのように進歩を駆動し、測定できるかについて議論する。 我々は、量子コンピュータの異なる部分のパフォーマンスの定量化方法を説明し、既存のベンチマークを調査し、ベンチマークの最近のトレンドを批判的に議論し、この分野における重要なオープンな研究課題を強調する。

The rapid pace of development in quantum computing technology has sparked a proliferation of benchmarks for assessing the performance of quantum computing hardware and software. Good benchmarks empower scientists, engineers, programmers, and users to understand a computing system's power, but bad benchmarks can misdirect research and inhibit progress. In this Perspective, we survey the science of quantum computer benchmarking. We discuss the role of benchmarks and benchmarking, and how good benchmarks can drive and measure progress towards the long-term goal of useful quantum computations, i.e., "quantum utility". We explain how different kinds of benchmark quantify the performance of different parts of a quantum computer, we survey existing benchmarks, critically discuss recent trends in benchmarking, and highlight important open research questions in this field.
翻訳日:2024-07-16 01:46:09 公開日:2024-07-11
# 楕円曲線暗号とニューラルネットワーク:セキュア通信の新しいアプローチ

Neural Networks Meet Elliptic Curve Cryptography: A Novel Approach to Secure Communication ( http://arxiv.org/abs/2407.08831v1 )

ライセンス: Link先を確認
Mina Cecilie Wøien, Ferhat Ozgur Catak, Murat Kuzlu, Umit Cali, (参考訳) 近年、ニューラルネットワークはセキュアな通信のために対称暗号関数を実装するために使われてきた。 この領域を拡張して、ニューラルネットワークフレームワークにおける非対称暗号の適用を探り、敵対的盗聴者、すなわちイヴからアリスとボブという2つのコミュニケーションエンティティ間の交換を保護する。 楕円曲線暗号の原理を用いて盗聴に対する通信セキュリティの有効性と堅牢性を調べるために、5つの異なる暗号鍵を用いる。 実験では、AliceとBobが、異なる曲線にわたるセキュリティ効果の無視可能な変化でセキュアな通信を実現していることが明らかになった。 また、暗号のレジリエンスを評価するように設計されている。 具体的には、Bobの損失メトリクスは暗号化復号処理中に0から1の間で発振し、Aliceによるメッセージの理解が成功したことを示す。 復号精度の潜在的な脆弱性は60倍を超え、EveはAliceやBobと比べて1バッチあたりのトレーニングイテレーションを2倍受け取っている。

In recent years, neural networks have been used to implement symmetric cryptographic functions for secure communications. Extending this domain, the proposed approach explores the application of asymmetric cryptography within a neural network framework to safeguard the exchange between two communicating entities, i.e., Alice and Bob, from an adversarial eavesdropper, i.e., Eve. It employs a set of five distinct cryptographic keys to examine the efficacy and robustness of communication security against eavesdropping attempts using the principles of elliptic curve cryptography. The experimental setup reveals that Alice and Bob achieve secure communication with negligible variation in security effectiveness across different curves. It is also designed to evaluate cryptographic resilience. Specifically, the loss metrics for Bob oscillate between 0 and 1 during encryption-decryption processes, indicating successful message comprehension post-encryption by Alice. The potential vulnerability with a decryption accuracy exceeds 60\%, where Eve experiences enhanced adversarial training, receiving twice the training iterations per batch compared to Alice and Bob.
翻訳日:2024-07-16 01:46:09 公開日:2024-07-11
# 大規模言語モデルを用いた電力系統の故障診断

Fault Diagnosis in Power Grids with Large Language Model ( http://arxiv.org/abs/2407.08836v1 )

ライセンス: Link先を確認
Liu Jing, Amirul Rahman, (参考訳) 電力グリッド故障診断は、電気インフラの信頼性と安定性を確保するための重要な課題である。 従来の診断システムは、電力グリッドデータの複雑さと変動性に悩まされることが多い。 本稿では,大規模言語モデル(LLM),特にChatGPTとGPT-4を併用した新しい手法を提案する。 我々は、複雑なデータを解釈し、詳細な行動可能な洞察を提供するため、LLMをガイドする包括的でコンテキスト対応のプロンプトを設計した。 提案手法は, リアルタイムセンサデータ, 履歴記録, コンポーネント記述を含む新たに構築したデータセットを用いて, 標準プロンプト, CoT (Chain-of-Thought) および Tree-of-Thought (ToT) 手法などのベースライン技術に対して評価を行った。 実験の結果, 診断精度, 説明可能性品質, 応答コヒーレンス, 文脈的理解が有意に向上し, 提案手法の有効性が示された。 これらの結果から, 急速駆動型LSMは, 堅牢かつ信頼性の高い電力グリッド故障診断に有望な解決策をもたらすことが示唆された。

Power grid fault diagnosis is a critical task for ensuring the reliability and stability of electrical infrastructure. Traditional diagnostic systems often struggle with the complexity and variability of power grid data. This paper proposes a novel approach that leverages Large Language Models (LLMs), specifically ChatGPT and GPT-4, combined with advanced prompt engineering to enhance fault diagnosis accuracy and explainability. We designed comprehensive, context-aware prompts to guide the LLMs in interpreting complex data and providing detailed, actionable insights. Our method was evaluated against baseline techniques, including standard prompting, Chain-of-Thought (CoT), and Tree-of-Thought (ToT) methods, using a newly constructed dataset comprising real-time sensor data, historical fault records, and component descriptions. Experimental results demonstrate significant improvements in diagnostic accuracy, explainability quality, response coherence, and contextual understanding, underscoring the effectiveness of our approach. These findings suggest that prompt-engineered LLMs offer a promising solution for robust and reliable power grid fault diagnosis.
翻訳日:2024-07-16 01:36:13 公開日:2024-07-11
# データ汚染下におけるネットワーク異常検出のためのディープラーニング:ロバスト性の評価と性能劣化の軽減

Deep Learning for Network Anomaly Detection under Data Contamination: Evaluating Robustness and Mitigating Performance Degradation ( http://arxiv.org/abs/2407.08838v1 )

ライセンス: Link先を確認
D'Jeff K. Nkashama, Jordan Masakuna Félicien, Arian Soltani, Jean-Charles Verdier, Pierre-Martin Tardif, Marc Frappier, Froduald Kabanza, (参考訳) ディープラーニング(DL)は、サイバーセキュリティのためのネットワーク異常検出(NAD)において重要なツールとして登場した。 異常検出のためのDLモデルは、データから特徴や学習パターンを抽出する上で優れているが、データ汚染に弱い。 本研究は,データ汚染に対する6つの教師なしDLアルゴリズムのロバスト性について,提案手法を用いて評価する。 その結果, 汚染データに曝露した場合の最先端異常検出アルゴリズムの性能は著しく低下し, DLベースNADモデルにおける自己保護機構の重要性が強調された。 この脆弱性を軽減するために,制約付き潜在表現を持つ拡張自動エンコーダを提案する。 以上の結果から,本手法は既存の手法に比べてデータ汚染に対する耐性が向上し,NAD系をより堅牢にするための有望な方向を示すことが明らかとなった。

Deep learning (DL) has emerged as a crucial tool in network anomaly detection (NAD) for cybersecurity. While DL models for anomaly detection excel at extracting features and learning patterns from data, they are vulnerable to data contamination -- the inadvertent inclusion of attack-related data in training sets presumed benign. This study evaluates the robustness of six unsupervised DL algorithms against data contamination using our proposed evaluation protocol. Results demonstrate significant performance degradation in state-of-the-art anomaly detection algorithms when exposed to contaminated data, highlighting the critical need for self-protection mechanisms in DL-based NAD models. To mitigate this vulnerability, we propose an enhanced auto-encoder with a constrained latent representation, allowing normal data to cluster more densely around a learnable center in the latent space. Our evaluation reveals that this approach exhibits improved resistance to data contamination compared to existing methods, offering a promising direction for more robust NAD systems.
翻訳日:2024-07-16 01:36:13 公開日:2024-07-11
# サイバーセキュリティにおけるジェネレーティブ・ディビジョンとオープン・リサーチ・スコープの活用に関する調査

A Survey on the Application of Generative Adversarial Networks in Cybersecurity: Prospective, Direction and Open Research Scopes ( http://arxiv.org/abs/2407.08839v1 )

ライセンス: Link先を確認
Md Mashrur Arifin, Md Shoaib Ahmed, Tanmai Kumar Ghosh, Jun Zhuang, Jyh-haw Yeh, (参考訳) 人工知能の普及に伴い、デジタルで蓄積および散布するために必要なデータの量は大幅に増加した。 データは、複雑で洗練されたインフラを備えたデジタルランドスケープでオンラインで利用可能であるため、サイバーセキュリティに基づいたさまざまな防御メカニズムを実装することが不可欠である。 ディープラーニングモデルであるGenerative Adversarial Networks(GAN)は、常に変化するセキュリティ問題に対処するための強力なソリューションとして登場した。 本研究は, サイバーセキュリティの防衛強化において, GANを的確に捉えた深層学習モデルの重要性について検討した。 本調査は, 侵入検知システム(IDS), 移動およびネットワークトレスパス, ボットネット検出, マルウェア検出など, GANで完成した様々な作業について検討することを目的とする。 焦点は、これらのドメインにおけるサイバーセキュリティの防御を強化するために、GANがいかに影響力のあるツールになり得るかを調べることである。 さらに,これらの領域でGANを使うことの課題と制約について論じ,今後の研究方向性を示唆する。 全体として、この論文は、サイバーセキュリティ対策の強化におけるGANの可能性を強調し、この分野におけるさらなる調査の必要性に対処する。

With the proliferation of Artificial Intelligence, there has been a massive increase in the amount of data required to be accumulated and disseminated digitally. As the data are available online in digital landscapes with complex and sophisticated infrastructures, it is crucial to implement various defense mechanisms based on cybersecurity. Generative Adversarial Networks (GANs), which are deep learning models, have emerged as powerful solutions for addressing the constantly changing security issues. This survey studies the significance of the deep learning model, precisely on GANs, in strengthening cybersecurity defenses. Our survey aims to explore the various works completed in GANs, such as Intrusion Detection Systems (IDS), Mobile and Network Trespass, BotNet Detection, and Malware Detection. The focus is to examine how GANs can be influential tools to strengthen cybersecurity defenses in these domains. Further, the paper discusses the challenges and constraints of using GANs in these areas and suggests future research directions. Overall, the paper highlights the potential of GANs in enhancing cybersecurity measures and addresses the need for further exploration in this field.
翻訳日:2024-07-16 01:36:13 公開日:2024-07-11
# ラグランジアン演算子推論によるソフトロボットのデータ駆動モデル削減

Data-driven Model Reduction for Soft Robots via Lagrangian Operator Inference ( http://arxiv.org/abs/2407.08840v1 )

ライセンス: Link先を確認
Harsh Sharma, Iman Adibnazari, Jacobo Cervera-Torralba, Michael T. Tolley, Boris Kramer, (参考訳) データ駆動型モデル縮小法は、ソフトロボットのリアルタイム制御のための高忠実度モデルの計算効率の良いサロゲートを構築する非侵襲的な方法を提供する。 この研究は、モデル方程式のラグランジアンの性質を利用して、ラグランジアン演算子推論(英語版)による構造保存線形減階モデルを導出し、その性能をアンギリフォームスイミングソフトロボットモデルの231,336自由度による顕著な線形モデル縮小技術と比較する。 ケーススタディでは、基礎となるラグランジアン構造を保存することは、予測精度が高く、未知の入力に対して頑健な学習モデルをもたらすことを示した。

Data-driven model reduction methods provide a nonintrusive way of constructing computationally efficient surrogates of high-fidelity models for real-time control of soft robots. This work leverages the Lagrangian nature of the model equations to derive structure-preserving linear reduced-order models via Lagrangian Operator Inference and compares their performance with prominent linear model reduction techniques through an anguilliform swimming soft robot model example with 231,336 degrees of freedom. The case studies demonstrate that preserving the underlying Lagrangian structure leads to learned models with higher predictive accuracy and robustness to unseen inputs.
翻訳日:2024-07-16 01:36:13 公開日:2024-07-11
# 大規模言語モデル自由応答回答におけるニュアンスバイアスの評価

Evaluating Nuanced Bias in Large Language Model Free Response Answers ( http://arxiv.org/abs/2407.08842v1 )

ライセンス: Link先を確認
Jennifer Healey, Laurie Byrum, Md Nadeem Akhtar, Moumita Sinha, (参考訳) 事前訓練された大規模言語モデル(LLM)は、カスタムプロンプトや微調整を使用して、特定のビジネス目的に容易に適用できるようになった。 これらのカスタマイズは、パフォーマンスのいくつかの側面を改善するために反復的に再設計されることが多いが、各変更後のビジネスは、バイアスのような重要な問題に関するシステムの振る舞いに否定的な影響がないことを保証したい。 単語マスキング(英語版)や複数の選択質問(英語版)などのバイアスの手法をベンチマークする以前の手法では、大規模にバイアスを評価できたが、これらは自由応答の答えで起こりうるすべてのニュアンスなバイアスを捉えておらず、通常、LLMシステムによって生成される答えのタイプである。 本稿では,複数選択テストでは同様に識別できない自由テキストにおける数種類のニュアンスバイアスを同定する。 信頼バイアス、暗黙のバイアス、包摂バイアス、消去バイアス。 本稿では、まず、偏見のない回答を自動的に分類し、その後、群衆労働者を用いて名前の逆のペアを共同評価することで、これらのバイアスを検出する半自動パイプラインを提案する。 我々の手法が生み出すニュアンスド分類は、特にLSM推論能力が向上するにつれて、LSMにより良いフィードバックを与えるのに利用できると信じている。

Pre-trained large language models (LLMs) can now be easily adapted for specific business purposes using custom prompts or fine tuning. These customizations are often iteratively re-engineered to improve some aspect of performance, but after each change businesses want to ensure that there has been no negative impact on the system's behavior around such critical issues as bias. Prior methods of benchmarking bias use techniques such as word masking and multiple choice questions to assess bias at scale, but these do not capture all of the nuanced types of bias that can occur in free response answers, the types of answers typically generated by LLM systems. In this paper, we identify several kinds of nuanced bias in free text that cannot be similarly identified by multiple choice tests. We describe these as: confidence bias, implied bias, inclusion bias and erasure bias. We present a semi-automated pipeline for detecting these types of bias by first eliminating answers that can be automatically classified as unbiased and then co-evaluating name reversed pairs using crowd workers. We believe that the nuanced classifications our method generates can be used to give better feedback to LLMs, especially as LLM reasoning capabilities become more advanced.
翻訳日:2024-07-16 01:36:13 公開日:2024-07-11
# インフレフロー:拡散モデルに基づくキャリブレーションベイズ推論

Inflationary Flows: Calibrated Bayesian Inference with Diffusion-Based Models ( http://arxiv.org/abs/2407.08843v1 )

ライセンス: Link先を確認
Daniela de Albuquerque, John Pearson, (参考訳) データから興味のパラメータを推定する以外に、統計的推測の重要な目的の1つは、これらの推定における不確実性を適切に定量化することである。 ベイズ予想では、この不確実性は後続分布によって提供され、その計算は通常、難解な高次元積分を含む。 利用可能な近似法の中で、サンプリングベースのアプローチは強力な理論的保証を持つが、大きな問題に対して低いスケールでスケールする一方、変分的アプローチはうまくスケールするが、理論的保証はほとんど得られない。 特に、変分法は後続の不確かさの過信推定を生成することが知られており、典型的には識別不可能であり、多くの潜時変数構成は等価な予測を生成する。 本稿では,最近生成的モデリングタスクにおける最先端性能を生み出した拡散モデル (DBM) を,キャリブレーションされた同定可能なベイズ推定にどのように再利用できるかを示すことで,これらの課題に対処する。 確率フロー常微分方程式 (pfODEs) と確率フロー常微分方程式 (pfODEs) との以前に確立された接続を利用することで、高次元データを一意的に決定的にODE積分を介して低次元ガウス分布にマッピングするモデル、インフレーションフローのクラスを導出する。 この写像は可逆的かつ近傍保存的であり、制御可能な数値誤差があり、その結果、データの不確実性は遅延空間に正しく伝播する。 本稿では,新しいノイズスケジュールを用いた標準的なDBMトレーニングを通じてそのようなマップを学習する方法を実証し,本質的なデータ次元の保存と低減に有効であることを示す。 その結果は高表現的な生成モデルのクラスであり、低次元の潜在空間上で一意に定義される。

Beyond estimating parameters of interest from data, one of the key goals of statistical inference is to properly quantify uncertainty in these estimates. In Bayesian inference, this uncertainty is provided by the posterior distribution, the computation of which typically involves an intractable high-dimensional integral. Among available approximation methods, sampling-based approaches come with strong theoretical guarantees but scale poorly to large problems, while variational approaches scale well but offer few theoretical guarantees. In particular, variational methods are known to produce overconfident estimates of posterior uncertainty and are typically non-identifiable, with many latent variable configurations generating equivalent predictions. Here, we address these challenges by showing how diffusion-based models (DBMs), which have recently produced state-of-the-art performance in generative modeling tasks, can be repurposed for performing calibrated, identifiable Bayesian inference. By exploiting a previously established connection between the stochastic and probability flow ordinary differential equations (pfODEs) underlying DBMs, we derive a class of models, inflationary flows, that uniquely and deterministically map high-dimensional data to a lower-dimensional Gaussian distribution via ODE integration. This map is both invertible and neighborhood-preserving, with controllable numerical error, with the result that uncertainties in the data are correctly propagated to the latent space. We demonstrate how such maps can be learned via standard DBM training using a novel noise schedule and are effective at both preserving and reducing intrinsic data dimensionality. The result is a class of highly expressive generative models, uniquely defined on a low-dimensional latent space, that afford principled Bayesian inference.
翻訳日:2024-07-16 01:36:13 公開日:2024-07-11
# 量子コンピュータ上の回帰による量子システムの特性予測

Predicting properties of quantum systems by regression on a quantum computer ( http://arxiv.org/abs/2407.08847v1 )

ライセンス: Link先を確認
Andrey Kardashin, Yerassyl Balkybek, Konstantin Antipin, Vladimir V. Palyulin, (参考訳) 量子コンピュータは、本質的に量子であるラベル付きデータに対して機械学習タスクを実行する自然な手段とみなすことができる。 多くの量子機械学習技術は、物質の相と量子過程の区別などの分類問題を解くために開発された。 同様に、連続ラベルが純粋性や絡み合いなどの量子状態のいくつかの性質を定量化するときに、回帰のより一般的な問題を考えることができる。 本研究では,そのような特性を予測するためのデータに依存しない手法を提案する。 この方法は、パラメトリズド量子回路の概念に基づいており、観測可能な期待値を見つけようとしており、これはおそらく低いばらつきで利子の性質を推定するものである。 予測学習における我々のアプローチを数値的に検証する i) 出力状態が与えられたパラメータ化チャネルのパラメータ。 (二)二ビット状態の絡み合い、及び 3) パラメトリケートハミルトンのパラメータは基底状態を与える。 その結果, 提案手法は, 推定された特性の高精度な予測を行うことが可能であり, また, 予測誤差を特徴づけるクレーマー・ラオ境界を飽和させる場合さえあることがわかった。

Quantum computers can be considered as a natural means for performing machine learning tasks for labeled data which are inherently quantum. Many quantum machine learning techniques have been developed for solving classification problems, such as distinguishing between phases of matter or quantum processes. Similarly, one can consider a more general problem of regression, when the task is to predict continuous labels quantifying some property of quantum states, such as purity or entanglement. In this work, we propose a data-agnostic method for predicting such properties. The method is based on the notion of parametrized quantum circuits, and it seeks to find an observable the expectation of which gives the estimation of the property of interest with presumably low variance. We numerically test our approach in learning to predict (i) the parameter of a parametrized channel given its output state, (ii) entanglement of two-qubit states, and (iii) the parameter of a parametrized Hamiltonian given its ground state. The results show that the proposed method is able to find observables such that they provide highly accurate predictions of the considered properties, and in some cases even saturate the Cramer-Rao bound, which characterizes the prediction error.
翻訳日:2024-07-16 01:36:13 公開日:2024-07-11
# UICrit: UICritiqueデータセットによる自動設計評価の強化

UICrit: Enhancing Automated Design Evaluation with a UICritique Dataset ( http://arxiv.org/abs/2407.08850v1 )

ライセンス: Link先を確認
Peitong Duan, Chin-yi Chen, Gang Li, Bjoern Hartmann, Yang Li, (参考訳) 例えば、異なるUI設計を比較する場合や、自動ヒューリスティック評価を行う場合などである。 LLMベースのUI評価は、特に、様々なUIタイプや評価タスクに対する一般化可能性の約束を持っている。 しかし、現在のLCMベースの技術は人間の評価装置の性能とはまだ一致しない。 対象とするUIフィードバックデータセットを収集し,このデータセットを用いて汎用LLMの性能を向上させることにより,自動評価を改善することができると仮定する。 7人の経験豊富なデザイナーから収集した、983のモバイルUIに対する3,059のデザイン批判と品質評価のターゲットデータセットを提示する。 データセットの特徴を特徴付けるために,詳細な分析を行った。 次に,LLM生成UIフィードバックにおける55%のパフォーマンス向上を実現するために,このデータセットを適用した。 また、生成UI技術に対する報酬モデルのトレーニングや、UI評価を自動化するツールに依存しないマルチモーダルLCMの微調整など、このデータセットの今後の応用についても論じる。

Automated UI evaluation can be beneficial for the design process; for example, to compare different UI designs, or conduct automated heuristic evaluation. LLM-based UI evaluation, in particular, holds the promise of generalizability to a wide variety of UI types and evaluation tasks. However, current LLM-based techniques do not yet match the performance of human evaluators. We hypothesize that automatic evaluation can be improved by collecting a targeted UI feedback dataset and then using this dataset to enhance the performance of general-purpose LLMs. We present a targeted dataset of 3,059 design critiques and quality ratings for 983 mobile UIs, collected from seven experienced designers. We carried out an in-depth analysis to characterize the dataset's features. We then applied this dataset to achieve a 55% performance gain in LLM-generated UI feedback via various few-shot and visual prompting techniques. We also discuss future applications of this dataset, including training a reward model for generative UI techniques, and fine-tuning a tool-agnostic multi-modal LLM that automates UI evaluation.
翻訳日:2024-07-16 01:36:13 公開日:2024-07-11
# サイラスセグメンテーションのためのマルチスケールグリッドGaborアテンション

Multi-scale gridded Gabor attention for cirrus segmentation ( http://arxiv.org/abs/2407.08852v1 )

ライセンス: Link先を確認
Felix Richards, Adeline Paiement, Xianghua Xie, Elisabeth Sola, Pierre-Alain Duc, (参考訳) 本稿では,大容量画像に大域汚染物質を分割することの課題に対処する。 このような構造を正確に記述するには、テクスチャパターンの理解とともに、十分なグローバルなコンテキストが必要である。 CNNは後者を専門としているが、グローバル機能を生成する能力は限られている。 アテンションは画像の依存関係を長く測定し、グローバルなコンテキストをキャプチャするが、計算コストが大きい。 本稿では,この制限に対処するグリッド型アテンション機構を提案する。 また,異なる方向に依存する特徴間の相関を,チャネルや位置の注意に加えて測定することで,テクスチャ配向に対する感度を高めるための注意機構も強化する。 本稿では,大規模な汚染塵雲の分節化作業を行う天文画像の新たなデータセットについて報告する。

In this paper, we address the challenge of segmenting global contaminants in large images. The precise delineation of such structures requires ample global context alongside understanding of textural patterns. CNNs specialise in the latter, though their ability to generate global features is limited. Attention measures long range dependencies in images, capturing global context, though at a large computational cost. We propose a gridded attention mechanism to address this limitation, greatly increasing efficiency by processing multi-scale features into smaller tiles. We also enhance the attention mechanism for increased sensitivity to texture orientation, by measuring correlations across features dependent on different orientations, in addition to channel and positional attention. We present results on a new dataset of astronomical images, where the task is segmenting large contaminating dust clouds.
翻訳日:2024-07-16 01:36:13 公開日:2024-07-11
# GPT-4は転位および逆転したチューリング試験において人間よりも人間であると判断される

GPT-4 is judged more human than humans in displaced and inverted Turing tests ( http://arxiv.org/abs/2407.08853v1 )

ライセンス: Link先を確認
Ishika Rathi, Sydney Taylor, Benjamin K. Bergen, Cameron R. Jones, (参考訳) 毎日のAI検出には、非公式のオンライン会話で人とAIを区別する必要がある。 多くの場合、人々はAIシステムと直接対話するのではなく、AIシステムと他の人の間の会話を読み取る。 我々は、Turingテストの2つの修正版(反転と置換)を使って、人や大きな言語モデルがいかに差別化できるかを測定した。 GPT-3.5, GPT-4, and displaced human adjudicators は、チューリング試験の書き起こしに基づいて、エージェントが人間かAIであるかを判断した。 その結果、AIと転職した人間の審査員は、対話的な尋問者よりも精度が低く、全体的な精度は低いことがわかった。 さらに、3人とも、GPT-4の目撃者は人間の目撃者よりも人間の方が多いと判断した。 これは、人間と現在のLLMの両方が、会話中のAIを検出するより正確なツールが緊急に必要であるとして、積極的に質問をしていないときに、両者を区別するのに苦労していることを示している。

Everyday AI detection requires differentiating between people and AI in informal, online conversations. In many cases, people will not interact directly with AI systems but instead read conversations between AI systems and other people. We measured how well people and large language models can discriminate using two modified versions of the Turing test: inverted and displaced. GPT-3.5, GPT-4, and displaced human adjudicators judged whether an agent was human or AI on the basis of a Turing test transcript. We found that both AI and displaced human judges were less accurate than interactive interrogators, with below chance accuracy overall. Moreover, all three judged the best-performing GPT-4 witness to be human more often than human witnesses. This suggests that both humans and current LLMs struggle to distinguish between the two when they are not actively interrogating the person, underscoring an urgent need for more accurate tools to detect AI in conversations.
翻訳日:2024-07-16 01:36:13 公開日:2024-07-11
# BraTS-PED:2023年度国際小児脳腫瘍研究会議報告

BraTS-PEDs: Results of the Multi-Consortium International Pediatric Brain Tumor Segmentation Challenge 2023 ( http://arxiv.org/abs/2407.08855v1 )

ライセンス: Link先を確認
Anahita Fathi Kazerooni, Nastaran Khalili, Xinyang Liu, Debanjan Haldar, Zhifan Jiang, Anna Zapaishchykova, Julija Pavaine, Lubdha M. Shah, Blaise V. Jones, Nakul Sheth, Sanjay P. Prabhu, Aaron S. McAllister, Wenxin Tu, Khanak K. Nandolia, Andres F. Rodriguez, Ibraheem Salman Shaikh, Mariana Sanchez Montano, Hollie Anne Lai, Maruf Adewole, Jake Albrecht, Udunna Anazodo, Hannah Anderson, Syed Muhammed Anwar, Alejandro Aristizabal, Sina Bagheri, Ujjwal Baid, Timothy Bergquist, Austin J. Borja, Evan Calabrese, Verena Chung, Gian-Marco Conte, James Eddy, Ivan Ezhov, Ariana M. Familiar, Keyvan Farahani, Deep Gandhi, Anurag Gottipati, Shuvanjan Haldar, Juan Eugenio Iglesias, Anastasia Janas, Elaine Elaine, Alexandros Karargyris, Hasan Kassem, Neda Khalili, Florian Kofler, Dominic LaBella, Koen Van Leemput, Hongwei B. Li, Nazanin Maleki, Zeke Meier, Bjoern Menze, Ahmed W. Moawad, Sarthak Pati, Marie Piraud, Tina Poussaint, Zachary J. Reitman, Jeffrey D. Rudie, MIcah Sheller, Russell Takeshi Shinohara, Karthik Viswanathan, Chunhao Wang, Benedikt Wiestler, Walter F. Wiggins, Christos Davatzikos, Phillip B. Storm, Miriam Bornhorst, Roger Packer, Trent Hummel, Peter de Blank, Lindsey Hoffman, Mariam Aboian, Ali Nabavizadeh, Jeffrey B. Ware, Benjamin H. Kann, Brian Rood, Adam Resnick, Spyridon Bakas, Arastoo Vossough, Marius George Linguraru, (参考訳) 小児中枢神経系腫瘍は、小児のがん関連死亡の主な原因である。 小児の高次グリオーマの生存率は20%未満である。 新しい治療法の開発は、再現可能で正確な集中的反応評価を必要とする多施設共同臨床試験に依存している。 小児脳腫瘍に焦点を当てた第1回BraTS-PEDs 2023チャレンジ(BraTS-PEDs 2023 Challenge)の結果を報告する。 この課題は、小児神経腫瘍学と臨床試験に特化した複数の国際コンソーシアムから取得したデータを利用した。 BraTS-PEDs 2023は、BraTS 2023の課題にまたがる標準的な定量的パフォーマンス評価指標を用いて、磁気共鳴画像から小児脳グリオーマのボリュームセグメンテーションアルゴリズムを評価することを目的とした。 小児腫瘍分析におけるトップパフォーマンスのAIアプローチには、nnU-NetとSwin UNETR、Auto3DSeg、あるいはnnU-Netの自己組織化フレームワークによるアンサンブルが含まれていた。 BraTSPEDs 2023は、臨床医(神経腫瘍学者、神経放射線学者)とAI/画像科学者とのコラボレーションを促進し、より高速なデータ共有と自動ボリューム分析技術の開発を促進した。 これらの進歩は臨床試験に大きく貢献し、脳腫瘍の子供のケアを改善する可能性がある。

Pediatric central nervous system tumors are the leading cause of cancer-related deaths in children. The five-year survival rate for high-grade glioma in children is less than 20%. The development of new treatments is dependent upon multi-institutional collaborative clinical trials requiring reproducible and accurate centralized response assessment. We present the results of the BraTS-PEDs 2023 challenge, the first Brain Tumor Segmentation (BraTS) challenge focused on pediatric brain tumors. This challenge utilized data acquired from multiple international consortia dedicated to pediatric neuro-oncology and clinical trials. BraTS-PEDs 2023 aimed to evaluate volumetric segmentation algorithms for pediatric brain gliomas from magnetic resonance imaging using standardized quantitative performance evaluation metrics employed across the BraTS 2023 challenges. The top-performing AI approaches for pediatric tumor analysis included ensembles of nnU-Net and Swin UNETR, Auto3DSeg, or nnU-Net with a self-supervised framework. The BraTSPEDs 2023 challenge fostered collaboration between clinicians (neuro-oncologists, neuroradiologists) and AI/imaging scientists, promoting faster data sharing and the development of automated volumetric analysis techniques. These advancements could significantly benefit clinical trials and improve the care of children with brain tumors.
翻訳日:2024-07-16 01:36:13 公開日:2024-07-11
# 超伝導量子ビット用Nb薄膜のマイクロ波損失の直接測定

Direct Measurement of Microwave Loss in Nb Films for Superconducting Qubits ( http://arxiv.org/abs/2407.08856v1 )

ライセンス: Link先を確認
B. Abdisatarov, D. Bafia, A. Murthy, G. Eremeev, H. E. Elsayed-Ali, J. Lee, A. Netepenko, C. P. A. Carlos, S. Leith, G. J. Rosaz, A. Romanenko, A. Grassellino, (参考訳) ニオブ膜は現代の2次元超伝導量子ビットの重要な構成要素であるが、全量子ビット崩壊率への寄与は十分に理解されていない。 材料と界面の異なる層が存在するため、現在の2次元量子ビット設計において支配的な損失チャネルを特定することは困難である。 本稿では、3次元ニオブ超伝導高周波共振器(SRF)上に高出力インパルスマグネトロンスパッタ(HiPIMS)膜を作製し、これらのフィルム中のRF損失を材料パラメータと直接相関する最初の研究について述べる。 3次元SRF構造を用いることで、ニオブフィルムの損失を他のコントリビューションから分離することができる。 以上の結果から,HiPIMS法により作製したニオブ薄膜のマイクロ波消散は,バルクニオブSRFキャビティの本質的品質因子に似ており,寿命は数秒に及んでいることが示唆された。 ニオブ薄膜の微細構造と不純物レベルは損失に大きく影響しない。 これらの結果は, ニオブ膜におけるマイクロ波損失のスケールを設定し, ニオブ損失が現在の2次元超伝導量子ビット設計における観察されたコヒーレンス時間を支配せず, 代わりに誘電体酸化物が性能を抑える役割を強調した。 また、ニオブフィルムの損失がキュービット寿命の制限になる場合の限界を設定することもできる。

Niobium films are a key component in modern two-dimensional superconducting qubits, yet their contribution to the total qubit decay rate is not fully understood. The presence of different layers of materials and interfaces makes it difficult to identify the dominant loss channels in present two-dimensional qubit designs. In this paper we present the first study which directly correlates measurements of RF losses in such films to material parameters by investigating a high-power impulse magnetron sputtered (HiPIMS) film atop a three-dimensional niobium superconducting radiofrequency (SRF) resonator. By using a 3D SRF structure, we are able to isolate the niobium film loss from other contributions. Our findings indicate that microwave dissipation in the HiPIMS-prepared niobium films, within the quantum regime, resembles that of record-high intrinsic quality factor of bulk niobium SRF cavities, with lifetimes extending into seconds. Microstructure and impurity level of the niobium film do not significantly affect the losses. These results set the scale of microwave losses in niobium films and show that niobium losses do not dominate the observed coherence times in present two-dimensional superconducting qubit designs, instead highlighting the dominant role of the dielectric oxide in limiting the performance. We can also set a bound for when niobium film losses will become a limitation for qubit lifetimes.
翻訳日:2024-07-16 01:36:13 公開日:2024-07-11
# ハイブリッドスパイキング・畳み込みニューラルネットワークによる機械学習モデルの改良

A Hybrid Spiking-Convolutional Neural Network Approach for Advancing Machine Learning Models ( http://arxiv.org/abs/2407.08861v1 )

ライセンス: Link先を確認
Sanaullah, Kaushik Roy, Ulrich Rückert, Thorsten Jungeblut, (参考訳) 本稿では,新しいスタンドアロンハイブリッドスパイキング・畳み込みニューラルネットワーク(SC-NN)モデルを提案する。 提案手法では,イベントベース計算や時間処理などのSNNのユニークな機能と,CNNの強力な表現学習能力を用いて,高品質なインペイント画像を生成する。 モデルは、マスクを使用して欠落したリージョンを生成するイメージインペイント用に特別に設計されたカスタムデータセットに基づいてトレーニングされる。 ハイブリッドモデルはSNNConv2dレイヤと従来のCNNレイヤで構成されている。 SNNConv2d層は、漏れやすい統合と発火(LIF)ニューロンモデルを実装し、スパイクの振る舞いを捉え、CNN層は空間的特徴を捉えている。 本研究では,平均二乗誤差(MSE)損失関数を用いて,トレーニングセット上でのトレーニング損失値0.015の精度を示すトレーニングプロセスを示し,テストセット上での検証損失値を0.0017以下とした。 さらに,画像インパインティングのための1つのネットワークにおいて,時間的ダイナミクスと特徴抽出を統合する可能性を示した。

In this article, we propose a novel standalone hybrid Spiking-Convolutional Neural Network (SC-NN) model and test on using image inpainting tasks. Our approach uses the unique capabilities of SNNs, such as event-based computation and temporal processing, along with the strong representation learning abilities of CNNs, to generate high-quality inpainted images. The model is trained on a custom dataset specifically designed for image inpainting, where missing regions are created using masks. The hybrid model consists of SNNConv2d layers and traditional CNN layers. The SNNConv2d layers implement the leaky integrate-and-fire (LIF) neuron model, capturing spiking behavior, while the CNN layers capture spatial features. In this study, a mean squared error (MSE) loss function demonstrates the training process, where a training loss value of 0.015, indicates accurate performance on the training set and the model achieved a validation loss value as low as 0.0017 on the testing set. Furthermore, extensive experimental results demonstrate state-of-the-art performance, showcasing the potential of integrating temporal dynamics and feature extraction in a single network for image inpainting.
翻訳日:2024-07-16 01:36:13 公開日:2024-07-11
# 深層学習を用いたシングルイメージシャドウ除去:包括的調査

Single-Image Shadow Removal Using Deep Learning: A Comprehensive Survey ( http://arxiv.org/abs/2407.08865v1 )

ライセンス: Link先を確認
Laniqng Guo, Chong Wang, Yufei Wang, Siyu Huang, Wenhan Yang, Alex C. Kot, Bihan Wen, (参考訳) シャドウ除去は、シャドウ領域と非シャドウ領域の均一な照明分布を追求し、シャドウ領域内の画像内容を復元することを目的としている。 【他の画像復元作業と比較して,影除去には2つの課題がある】 1) 影のパターンは任意であり、変化し、しばしば非常に複雑なトレース構造を持つため、「トレースレス」画像の回復は困難である。 2) 陰影による劣化は空間的に不均一であり, 照度と陰影領域と非陰影領域の色の矛盾が生じている。 この分野での最近の開発は、主にディープラーニングベースのソリューションによって進められており、様々な学習戦略、ネットワークアーキテクチャ、損失関数、トレーニングデータを利用している。 それでも、ディープラーニングに基づくシャドウ除去技術に関する、徹底的で洞察に富んだレビューは、まだ欠落している。 本稿では,技術詳細からアプリケーションまで,さまざまな側面をカバーする総合的な調査を初めて実施する。 深層学習に基づくシングルイメージシャドウ除去手法の大きな進歩を強調し、様々なカテゴリにわたる過去の研究を徹底的にレビューし、これらの発展の歴史的進展に関する洞察を提供する。 さらに,性能比較を定量的かつ質的に要約する。 シャドウ除去の技術的側面の他に、この分野の将来的な方向性についても検討する。

Shadow removal aims at restoring the image content within shadow regions, pursuing a uniform distribution of illumination that is consistent between shadow and non-shadow regions. {Comparing to other image restoration tasks, there are two unique challenges in shadow removal:} 1) The patterns of shadows are arbitrary, varied, and often have highly complex trace structures, making ``trace-less'' image recovery difficult. 2) The degradation caused by shadows is spatially non-uniform, resulting in inconsistencies in illumination and color between shadow and non-shadow areas. Recent developments in this field are primarily driven by deep learning-based solutions, employing a variety of learning strategies, network architectures, loss functions, and training data. Nevertheless, a thorough and insightful review of deep learning-based shadow removal techniques is still lacking. In this paper, we are the first to provide a comprehensive survey to cover various aspects ranging from technical details to applications. We highlight the major advancements in deep learning-based single-image shadow removal methods, thoroughly review previous research across various categories, and provide insights into the historical progression of these developments. Additionally, we summarize performance comparisons both quantitatively and qualitatively. Beyond the technical aspects of shadow removal methods, we also explore potential future directions for this field.
翻訳日:2024-07-16 01:36:13 公開日:2024-07-11
# 集中型AIについて、人々はどう思うか?

What Do People Think about Sentient AI? ( http://arxiv.org/abs/2407.08867v1 )

ライセンス: Link先を確認
Jacy Reese Anthis, Janet V. T. Pauketat, Ali Ladak, Aikaterina Manoli, (参考訳) 機械学習の急速な進歩に伴い、この分野の多くの人々がデジタルマインドの台頭と人工の知覚の可能性について議論している。 AI機能と安全性の今後の発展は、世論と人間とAIの相互作用に依存するだろう。 この研究ギャップを埋めるために、2021年に始まったアメリカの世論の事前登録と縦断調査であるAIMS(Artificial Intelligence, Morality, and Sentience)による最初の調査結果として、知覚AIのトピックに関する全国的に代表的な調査データを提示する。 2021年の1つのデータ収集波と2023年の2つの波(Total \textit{N} = 3,500)で、2021年のAIの幸福に対する心の認識と道徳的関心は予測よりも高く、2023年には大幅に増加した。 63 %は人間より賢いAIの禁止を、69 %は知覚的なAIの禁止を支持している。 予想されるタイムラインは驚くほど短く、わずか5年で知覚的AIの中央値、わずか2年で人工知能の予測が下がった。 AIがセンシティブになるかどうかに関わらず、議論そのものが人間とコンピュータのインタラクションをオーバーホールし、現実的なリスクや機会を含むAI技術の将来の軌道を形作るかもしれない、と私たちは主張する。

With rapid advances in machine learning, many people in the field have been discussing the rise of digital minds and the possibility of artificial sentience. Future developments in AI capabilities and safety will depend on public opinion and human-AI interaction. To begin to fill this research gap, we present the first nationally representative survey data on the topic of sentient AI: initial results from the Artificial Intelligence, Morality, and Sentience (AIMS) survey, a preregistered and longitudinal study of U.S. public opinion that began in 2021. Across one wave of data collection in 2021 and two in 2023 (total \textit{N} = 3,500), we found mind perception and moral concern for AI well-being in 2021 were higher than predicted and significantly increased in 2023: for example, 71\% agree sentient AI deserve to be treated with respect, and 38\% support legal rights. People have become more threatened by AI, and there is widespread opposition to new technologies: 63\% support a ban on smarter-than-human AI, and 69\% support a ban on sentient AI. Expected timelines are surprisingly short and shortening with a median forecast of sentient AI in only five years and artificial general intelligence in only two years. We argue that, whether or not AIs become sentient, the discussion itself may overhaul human-computer interaction and shape the future trajectory of AI technologies, including existential risks and opportunities.
翻訳日:2024-07-16 01:36:13 公開日:2024-07-11
# 確率的安全クリティカルシステムのための一般化可能な物理インフォームドラーニング

Generalizable Physics-informed Learning for Stochastic Safety-critical Systems ( http://arxiv.org/abs/2407.08868v1 )

ライセンス: Link先を確認
Zhuoyuan Wang, Albert Chern, Yorie Nakahira, (参考訳) 安全な意思決定には、長期的リスクの正確な見積もりが不可欠であるが、稀なリスクイベントや長期的トラジェクトリからのサンプリングは、違法にコストがかかる可能性がある。 リスク勾配は、学習と制御のための多くの一階述語手法で利用することができるが、無限小デバイザがサンプリングノイズを著しく増幅するので、モンテカルロ(MC)法による勾配推定は困難である。 このギャップを生かして,十分なリスクイベントを伴わない短期サンプルを用いて,長期的リスク確率とその勾配を評価するための効率的な手法を提案する。 まず、4種類の長期リスク確率が、ある偏微分方程式(PDE)の解であることが導かれる。 そこで本研究では,データと物理情報(前述のPDE)を統合した物理インフォームド学習手法を提案する。 物理情報は、利用可能なデータを超えて情報を伝達し、利用可能なデータを超えて証明可能な一般化を得るのに役立つ。 最後に,提案手法がサンプル効率を向上し,未確認領域を一般化し,システムパラメータの変化に適応できることをシミュレーションで実証した。

Accurate estimate of long-term risk is critical for safe decision-making, but sampling from rare risk events and long-term trajectories can be prohibitively costly. Risk gradient can be used in many first-order techniques for learning and control methods, but gradient estimate is difficult to obtain using Monte Carlo (MC) methods because the infinitesimal devisor may significantly amplify sampling noise. Motivated by this gap, we propose an efficient method to evaluate long-term risk probabilities and their gradients using short-term samples without sufficient risk events. We first derive that four types of long-term risk probability are solutions of certain partial differential equations (PDEs). Then, we propose a physics-informed learning technique that integrates data and physics information (aforementioned PDEs). The physics information helps propagate information beyond available data and obtain provable generalization beyond available data, which in turn enables long-term risk to be estimated using short-term samples of safe events. Finally, we demonstrate in simulation that the proposed technique has improved sample efficiency, generalizes well to unseen regions, and adapts to changing system parameters.
翻訳日:2024-07-16 01:26:19 公開日:2024-07-11
# 縦結合を用いた量子ドット量子ビットの超分散共振器読み出し

Ultra-dispersive resonator readout of a quantum-dot qubit using longitudinal coupling ( http://arxiv.org/abs/2407.08869v1 )

ライセンス: Link先を確認
Benjamin Harpt, J. Corrigan, Nathan Holman, Piotr Marciniec, D. Rosenberg, D. Yost, R. Das, Rusko Ruskov, Charles Tahan, William D. Oliver, R. McDermott, Mark Friesen, M. A. Eriksson, (参考訳) 超伝導共振器に結合した量子ドットハイブリッド量子ビットのパラメトリック長手相互作用機構による読み出しを行う。 我々の実験は、$\sim$10 GHzで変調された量子ビットと共振器の周波数を用いて行われ、長手結合が回路量子力学の「超分散的」な状態における半導体量子ビットの動作を促進することを実証した。

We perform readout of a quantum-dot hybrid qubit coupled to a superconducting resonator through a parametric, longitudinal interaction mechanism. Our experiments are performed with the qubit and resonator frequencies detuned by $\sim$10 GHz, demonstrating that longitudinal coupling can facilitate semiconductor qubit operation in the 'ultra-dispersive' regime of circuit quantum electrodynamics.
翻訳日:2024-07-16 01:26:19 公開日:2024-07-11
# ラベル付きランダム有限集合を用いた再同定とオクルージョンハンドリングによる視覚的多物体追跡

Visual Multi-Object Tracking with Re-Identification and Occlusion Handling using Labeled Random Finite Sets ( http://arxiv.org/abs/2407.08872v1 )

ライセンス: Link先を確認
Linh Van Ma, Tran Thien Dat Nguyen, Changbeom Shim, Du Yong Kim, Namkoo Ha, Moongu Jeon, (参考訳) 本稿では、オブジェクトの出現と隠蔽を解消するオンライン視覚多目的追跡(MOT)アルゴリズムを提案する。 我々の解はラベル付きランダム有限集合 (LRFS) フィルタリング手法に基づいており、原理的には1つのベイズ再帰を通じて消失、外見、再出現、閉塞に対処する。 しかし、実際には、既存の数値近似は、特に検出されていない長い時間後において、再出現する物体を新しい軌道として初期化させる。 オクルージョン処理では、オクルージョンモデルの洗練と計算要求との間のトレードオフによってフィルタの有効性が判断される。 我々の貢献は、検出数の線形複雑さを維持しながら、再出現するオブジェクトに対処するためにオブジェクトの特徴を利用する新しいモデリング手法である。 さらに,フィルタのオクルージョン処理を改善するために,トラック間の重なり合う領域とサイズを考慮に入れたファジィ検出モデルを提案する。 また,フィルタの高速バージョンを開発し,計算時間を短縮する。

This paper proposes an online visual multi-object tracking (MOT) algorithm that resolves object appearance-reappearance and occlusion. Our solution is based on the labeled random finite set (LRFS) filtering approach, which in principle, addresses disappearance, appearance, reappearance, and occlusion via a single Bayesian recursion. However, in practice, existing numerical approximations cause reappearing objects to be initialized as new tracks, especially after long periods of being undetected. In occlusion handling, the filter's efficacy is dictated by trade-offs between the sophistication of the occlusion model and computational demand. Our contribution is a novel modeling method that exploits object features to address reappearing objects whilst maintaining a linear complexity in the number of detections. Moreover, to improve the filter's occlusion handling, we propose a fuzzy detection model that takes into consideration the overlapping areas between tracks and their sizes. We also develop a fast version of the filter to further reduce the computational time.
翻訳日:2024-07-16 01:26:19 公開日:2024-07-11
# DegustaBot: パーソナライズされた多目的再構成のためのゼロショット視覚的嗜好推定

DegustaBot: Zero-Shot Visual Preference Estimation for Personalized Multi-Object Rearrangement ( http://arxiv.org/abs/2407.08876v1 )

ライセンス: Link先を確認
Benjamin A. Newman, Pranay Gupta, Kris Kitani, Yonatan Bisk, Henny Admoni, Chris Paxton, (参考訳) デ・グスティブス(De gustibus non est disputandum、他人の好みを説明できない)は、人々の個人的な嗜好によって、人生における何つの解が決定されるかを記述する一般的なラテン語の格言である。 特に、多くの家庭のタスクは、シーンの視覚的美学のような個人の好みを考慮に入れれば、完全に成功するとしか考えられない。 例えば、テーブルの設定は、各物体の色、形、素材を考慮せずに、西洋のテーブル設定デコラムの伝統的な規則に従って道具を配置することで最適化できるが、これは特定の人にとって完全に満足できる解決策ではないかもしれない。 そこで本研究では,視覚的嗜好学習のためのアルゴリズムであるDegustaBotを提案する。 そこで我々は、新しいゼロショットビジュアルプロンプト技術を用いて、インターネットスケールで事前学習された視覚・言語基礎モデル(VLM)を使用する。 提案手法を評価するため,模擬表設定タスクにおいて,自然主義的個人嗜好のデータセットを大量に収集し,個人選好に基づいて成功を決定するための2つの新しい指標を開発するためにユーザスタディを実施する。 これは難しい問題であり、私たちのモデルの予測の50%は、少なくとも20%の人が受け入れられる可能性が高いことに気付きます。

De gustibus non est disputandum ("there is no accounting for others' tastes") is a common Latin maxim describing how many solutions in life are determined by people's personal preferences. Many household tasks, in particular, can only be considered fully successful when they account for personal preferences such as the visual aesthetic of the scene. For example, setting a table could be optimized by arranging utensils according to traditional rules of Western table setting decorum, without considering the color, shape, or material of each object, but this may not be a completely satisfying solution for a given person. Toward this end, we present DegustaBot, an algorithm for visual preference learning that solves household multi-object rearrangement tasks according to personal preference. To do this, we use internet-scale pre-trained vision-and-language foundation models (VLMs) with novel zero-shot visual prompting techniques. To evaluate our method, we collect a large dataset of naturalistic personal preferences in a simulated table-setting task, and conduct a user study in order to develop two novel metrics for determining success based on personal preference. This is a challenging problem and we find that 50% of our model's predictions are likely to be found acceptable by at least 20% of people.
翻訳日:2024-07-16 01:26:19 公開日:2024-07-11
# SALT: 任意ラベル木に対するSoftmaxを用いた医用画像の階層的セグメンテーションフレームワークの導入

SALT: Introducing a Framework for Hierarchical Segmentations in Medical Imaging using Softmax for Arbitrary Label Trees ( http://arxiv.org/abs/2407.08878v1 )

ライセンス: Link先を確認
Sven Koitka, Giulia Baldini, Cynthia S. Schmidt, Olivia B. Pollok, Obioma Pelka, Judith Kohnke, Katarzyna Borys, Christoph M. Friedrich, Benedikt M. Schaarschmidt, Michael Forsting, Lale Umutlu, Johannes Haubold, Felix Nensa, René Hosch, (参考訳) 従来のセグメンテーションネットワークは、解剖学的構造を独立した要素としてアプローチし、それら間の固有の階層的接続を見渡す。 本研究は,ラベル間の階層的関係を活用し,セグメンテーションの効率と解釈性を向上させるために設計された,SALT(Softmax for Arbitrary Label Trees)を提案する。 本研究は, 椎間板, 胸部, 頚部などの解剖学的ランドマークの階層構造を, 個々の椎骨にマッピングするために, 条件的確率を利用したCT画像のセグメント化手法を提案する。 The Cancer Imaging Archive (TCIA)のSAROSデータセットを用いて、893人の患者から900の身体領域を分離したモデルを開発した。 データセットはさらに、TotalSegmentatorと追加のセグメンテーションを生成して、合計で113のラベルを追加した。 モデルは600のスキャンでトレーニングされ、検証とテストは150のCTスキャンで実施された。 SAROS, CT-ORG, FLARE22, LCTSC, LUNA16, WORDなど,各種データセットのDiceスコアを用いて評価を行った。 評価されたデータセットのうち、SALTはLUNA16とSAROSのデータセットでそれぞれ0.93と0.929のスコアで最高の結果を得た。 このモデルは、CT-ORGで0.891、FLARE22で0.849、他のデータセットで信頼性の高い精度を示した。 LCTSCデータセットは0.908、WORDデータセットは0.844の成績を示した。 SALTは人体に固有の階層構造を用いて、100スライスで平均35秒で全身のセグメンテーションを実現した。 この迅速な処理は、臨床ワークフローへの統合の可能性を強調し、各CTスキャンによるフルボディセグメンテーションの自動的かつ効率的な計算を容易にし、診断プロセスと患者のケアを強化する。

Traditional segmentation networks approach anatomical structures as standalone elements, overlooking the intrinsic hierarchical connections among them. This study introduces Softmax for Arbitrary Label Trees (SALT), a novel approach designed to leverage the hierarchical relationships between labels, improving the efficiency and interpretability of the segmentations. This study introduces a novel segmentation technique for CT imaging, which leverages conditional probabilities to map the hierarchical structure of anatomical landmarks, such as the spine's division into lumbar, thoracic, and cervical regions and further into individual vertebrae. The model was developed using the SAROS dataset from The Cancer Imaging Archive (TCIA), comprising 900 body region segmentations from 883 patients. The dataset was further enhanced by generating additional segmentations with the TotalSegmentator, for a total of 113 labels. The model was trained on 600 scans, while validation and testing were conducted on 150 CT scans. Performance was assessed using the Dice score across various datasets, including SAROS, CT-ORG, FLARE22, LCTSC, LUNA16, and WORD. Among the evaluated datasets, SALT achieved its best results on the LUNA16 and SAROS datasets, with Dice scores of 0.93 and 0.929 respectively. The model demonstrated reliable accuracy across other datasets, scoring 0.891 on CT-ORG and 0.849 on FLARE22. The LCTSC dataset showed a score of 0.908 and the WORD dataset also showed good performance with a score of 0.844. SALT used the hierarchical structures inherent in the human body to achieve whole-body segmentations with an average of 35 seconds for 100 slices. This rapid processing underscores its potential for integration into clinical workflows, facilitating the automatic and efficient computation of full-body segmentations with each CT scan, thus enhancing diagnostic processes and patient care.
翻訳日:2024-07-16 01:26:19 公開日:2024-07-11
# スピンを持つ単一光子レベルのスケーラブルマイクロ波-光変換器

Scalable microwave-to-optical transducers at single photon level with spins ( http://arxiv.org/abs/2407.08879v1 )

ライセンス: Link先を確認
Tian Xie, Rikuto Fukumori, Jiahui Li, Andrei Faraon, (参考訳) 単一光子のマイクロ波から光への変換は、将来の超伝導量子デバイスと分散量子コンピューティングとセキュア通信の相互接続において重要な役割を果たす。 光駆動を介してマイクロ波と光モードを結合する様々なトランスデューサが開発され、ポッケル効果や電気機械、圧電、光学結合の組み合わせといった非線形現象を利用した。 しかし、これらの非線形性の限られた強度は、バルク材料特性によって設定され、しばしば懸濁構造の高度なナノファブリケーションと共に高品質なファクタ共振器を使用する必要がある。 したがって、効率的でスケーラブルなトランスダクション技術は、依然として優れた目標である。 希土類イオンドープ結晶(REI)は高品質な原子共鳴をもたらし、従来の物質に比べて多くのオーダーで効果的な二階非線形性をもたらす。 ここでは、YVO$_4$340 ppmのYVO$_4$結晶にドープされたイッテルビウム-171イオンと有効共振器$\chi^{(2)}$非線形性~10$^7$ pm/Vを用いて、オンチップマイクロ波-光電子変換器を実装する。 工学的な光学キャビティがなければ、ノイズを1.24(9)の低い光子に付加することで、パーセンテージレベルの効率を達成することができる。 拡張性を示すために、2つの同時動作トランスデューサから発する光子の干渉を、原子遷移の本質的な絶対周波数によって実証する。 これらの結果は、REIベースのトランスデューサを高い競争力を持つトランスデューサプラットフォームとして確立し、既存のREIベースの量子技術に様々な主要な量子マイクロ波プラットフォームへのネイティブなリンクを提供し、超伝導量子マシンのリモートトランスデューサによる絡み合いへの道を開く。

Microwave-to-optical transduction of single photons will play an essential role in interconnecting future superconducting quantum devices, with applications in distributed quantum computing and secure communications. Various transducers that couple microwave and optical modes via an optical drive have been developed, utilizing nonlinear phenomena such as the Pockels effect and a combination of electromechanical, piezoelectric, and optomechanical couplings. However, the limited strength of these nonlinearities, set by bulk material properties, requires the use of high quality factor resonators, often in conjunction with sophisticated nano-fabrication of suspended structures. Thus, an efficient and scalable transduction technology is still an outstanding goal. Rare-earth ion (REI) doped crystals provide high-quality atomic resonances that result in effective second-order nonlinearities stronger by many orders of magnitude compared to conventional materials. Here, we use ytterbium-171 ions doped in a YVO$_4$ crystal at 340 ppm with an effective resonant $\chi^{(2)}$ nonlinearity of ~ 10$^7$ pm/V to implement an on-chip microwave-to-optical transducer. Without an engineered optical cavity, we achieve percent-level efficiencies with an added noise as low as 1.24(9) photons. To showcase scalability, we demonstrate the interference of photons originating from two simultaneously operated transducers, enabled by the inherent absolute frequencies of the atomic transitions. These results establish REI-based transducers as a highly competitive transduction platform, provide existing REI-based quantum technologies a native link to various leading quantum microwave platforms, and pave the way toward remote transducer-assisted entanglement of superconducting quantum machines.
翻訳日:2024-07-16 01:26:19 公開日:2024-07-11
# 安定非線形非エルミートスキンモードの類

A class of stable nonlinear non-Hermitian skin modes ( http://arxiv.org/abs/2407.08880v1 )

ライセンス: Link先を確認
Hamed Ghaemi-Dizicheh, (参考訳) 非エルミート皮膚効果(英: non-Hermitian skin effect, NHSE)は、オープントポロジカルシステムにおいて、多くの固有状態が境界で局在する現象である。 その理論の多くの側面は線形系で研究されているが、この現象は非線形モデルにおいて新しいものである。 本稿では,半無限,一次元,非線形,非相互格子における準スキンモードの存在条件について検討する。 次のフェーズでは、開端を持つ有限非線形格子における準スキンモードの生存時間について検討する。 本研究では,システムのパラメータに対する生存時間の依存性について検討し,システムの非相互性が生存時間に与える影響を実証する。 本研究では, 非線形有限格子における安定な局在状態を実現する手法を提案する。

The non-Hermitian skin effect (NHSE) is a well-known phenomenon in open topological systems that causes a large number of eigenstates to become localized at the boundary. Although many aspects of its theory have been investigated in linear systems, this phenomenon remains novel in nonlinear models. In the first step of this paper, we look at the conditions for the presence of quasi-skin modes in a semi-infinite, one-dimensional, nonlinear, nonreciprocal lattice. In the following phase, we explore the survival time of the quasi-skin mode in a finite nonlinear lattice with open edges. We study the dependency of the survival time on the system's parameters and demonstrate how the nonreciprocity of the system affects the survival time. This study introduces a method for achieving a stable localized state in a nonlinear finite lattice.
翻訳日:2024-07-16 01:26:19 公開日:2024-07-11
# TractGraphFormer:拡散MRIトラクトグラフィーからの分類のための解剖学的インフォームドハイブリッドグラフCNN-Transformer Network

TractGraphFormer: Anatomically Informed Hybrid Graph CNN-Transformer Network for Classification from Diffusion MRI Tractography ( http://arxiv.org/abs/2407.08883v1 )

ライセンス: Link先を確認
Yuqian Chen, Fan Zhang, Meng Wang, Leo R. Zekelman, Suheyla Cetin-Karayumak, Tengfei Xue, Chaoyi Zhang, Yang Song, Nikos Makris, Yogesh Rathi, Weidong Cai, Lauren J. O'Donnell, (参考訳) 脳の接続と非画像表現型との関係は、ディープニューラルネットワークを用いてますます研究されている。 しかし、脳のホワイトマターネットワークの局所的およびグローバル的特性は、畳み込みネットワーク設計においてしばしば見過ごされる。 拡散MRIトラクトグラフィーに適したグラフCNN-TransformerディープラーニングフレームワークであるTractGraphFormerを紹介する。 このモデルは、ホワイトマター構造の局所解剖学的特徴と大域的特徴に依存する。 Graph CNNモジュールは、ホワイトマター幾何学とグレーマター接続をキャプチャして、解剖学的に類似したホワイトマター接続から局所的な特徴を集約する。 さらに、TractGraphFormerには、予測的なホワイトマター接続を解釈するためのアテンションモジュールが含まれている。 性予測テストでは、TractGraphFormerは、子供(n=9345)と若年(n=1065)の大きなデータセットで強いパフォーマンスを示す。 全体としては、WM内の広範囲な接続は個人の性別の予測であり、2つのデータセットで一貫した予測的解剖学的領域が特定される。 提案手法は,拡散MRIによる機械学習の予測性能を向上させるため,局所解剖情報とグローバルな特徴依存性を統合する可能性を強調した。

The relationship between brain connections and non-imaging phenotypes is increasingly studied using deep neural networks. However, the local and global properties of the brain's white matter networks are often overlooked in convolutional network design. We introduce TractGraphFormer, a hybrid Graph CNN-Transformer deep learning framework tailored for diffusion MRI tractography. This model leverages local anatomical characteristics and global feature dependencies of white matter structures. The Graph CNN module captures white matter geometry and grey matter connectivity to aggregate local features from anatomically similar white matter connections, while the Transformer module uses self-attention to enhance global information learning. Additionally, TractGraphFormer includes an attention module for interpreting predictive white matter connections. In sex prediction tests, TractGraphFormer shows strong performance in large datasets of children (n=9345) and young adults (n=1065). Overall, our approach suggests that widespread connections in the WM are predictive of the sex of an individual, and consistent predictive anatomical tracts are identified across the two datasets. The proposed approach highlights the potential of integrating local anatomical information and global feature dependencies to improve prediction performance in machine learning with diffusion MRI tractography.
翻訳日:2024-07-16 01:26:19 公開日:2024-07-11
# テトリスにインスパイアされた3Dビデオ表現の操作

Manipulating a Tetris-Inspired 3D Video Representation ( http://arxiv.org/abs/2407.08885v1 )

ライセンス: Link先を確認
Mihir Godbole, (参考訳) Video Synopsisは、ビデオ内のアクティビティを保存する方法でビデオ圧縮を実行するテクニックである。 この技術は特に監視および監視アプリケーションに有用である。 まだ初期段階の研究分野であるが、アプリケーション、最適化タイプ、データフィードの性質などによって、過去20年間にいくつかのアプローチが提案されてきた。 これらのアルゴリズムに必要な主要なデータは、ある種のオブジェクト追跡法から生じる。 本稿では,異なるアプリケーションに適した時空間データ表現について論じる。 また,ビデオ合成アルゴリズムの形式的定義も提示する。 さらに、この問題のより単純なバージョンに必要な仮定と修正について論じる。 本稿では,ビデオ合成の問題を解決するために,パッキングアルゴリズムの適用について検討する。 データの性質は3次元であるため,議論では3次元パッキング問題を考える。 本稿では,様々なビデオ合成手法とパッキング問題について,広範な文献レビューを行う。 最後に、このアルゴリズムの異なる応用と、先述した異なるデータ表現がどのようにしてこの問題を単純化するかを考察する。 また,本研究の今後の方向性についても論じる。

Video Synopsis is a technique that performs video compression in a way that preserves the activity in the video. This technique is particularly useful in surveillance and monitoring applications. Although it is still a nascent field of research, there have been several approaches proposed over the last two decades varying with the application, optimization type, nature of data feed, etc. The primary data required for these algorithms arises from some sort of object tracking method. In this paper, we discuss different spatio-temporal data representations suitable for different applications. We also present a formal definition for the video synopsis algorithm. We further discuss the assumptions and modifications to this definition required for a simpler version of the problem. We explore the application of a packing algorithm to solve the problem of video synopsis. Since the nature of the data is three dimensional, we consider 3D packing problems in the discussion. This paper also provides an extensive literature review of different video synopsis methods and packing problems. Lastly, we examine the different applications of this algorithm and how the different data representations discussed earlier can make the problem simpler. We also discuss the future directions of research that can be explored following this discussion.
翻訳日:2024-07-16 01:26:19 公開日:2024-07-11
# 電力系統セキュリティ評価のための半教師付きマルチタスク学習ベースフレームワーク

Semi-Supervised Multi-Task Learning Based Framework for Power System Security Assessment ( http://arxiv.org/abs/2407.08886v1 )

ライセンス: Link先を確認
Muhy Eddin Za'ter, Amirhossein Sajadi, Bri-Mathias Hodge, (参考訳) 本稿では,Semi-Supervised Multi-Task Learning (SS-MTL) を用いた新しい機械学習フレームワークを開発した。 提案フレームワークの基盤となる学習アルゴリズムは条件付きマスク付きエンコーダを統合し,マルチタスク学習を用いて特徴表現を分類し,大規模システムへの精度とスケーラビリティを向上させる。 さらに、このフレームワークは、その予測に対する信頼度測定を取り入れ、信頼性と解釈可能性を高める。 トポロジカルな類似度指数も組み込まれ、トポロジカルな認識がフレームワークに追加されている。 IEEE 68-busシステムに関する様々な実験を行い、提案手法の有効性を検証し、2つの異なるデータベース生成手法を用いて機械学習アルゴリズムの学習に必要なデータを生成する。 その結果,我々のアルゴリズムは,精度と堅牢性の観点から,既存の最先端の機械学習に基づくセキュリティ評価技術よりも優れていることがわかった。 最後に、セキュリティアセスメントに自動エンコーダを採用することの価値を強調し、正確性、信頼性、堅牢性の向上を強調します。 すべてのデータセットとコードは、再現性と透明性を保証するために公開されています。

This paper develops a novel machine learning-based framework using Semi-Supervised Multi-Task Learning (SS-MTL) for power system dynamic security assessment that is accurate, reliable, and aware of topological changes. The learning algorithm underlying the proposed framework integrates conditional masked encoders and employs multi-task learning for classification-aware feature representation, which improves the accuracy and scalability to larger systems. Additionally, this framework incorporates a confidence measure for its predictions, enhancing its reliability and interpretability. A topological similarity index has also been incorporated to add topological awareness to the framework. Various experiments on the IEEE 68-bus system were conducted to validate the proposed method, employing two distinct database generation techniques to generate the required data to train the machine learning algorithm. The results demonstrate that our algorithm outperforms existing state-of-the-art machine learning based techniques for security assessment in terms of accuracy and robustness. Finally, our work underscores the value of employing auto-encoders for security assessment, highlighting improvements in accuracy, reliability, and robustness. All datasets and codes used have been made publicly available to ensure reproducibility and transparency.
翻訳日:2024-07-16 01:26:19 公開日:2024-07-11
# 変圧器に基づく言語モデルのための微調整データセットの自動抽出

Automatic Pruning of Fine-tuning Datasets for Transformer-based Language Models ( http://arxiv.org/abs/2407.08887v1 )

ライセンス: Link先を確認
Mohammadreza Tayaranian, Seyyed Hasan Mozafari, Brett H. Meyer, James J. Clark, Warren J. Gross, (参考訳) トランスフォーマーベースの言語モデルは、様々な自然言語理解タスクにおいて最先端のパフォーマンスを示している。 この性能を達成するために、これらのモデルはまず一般コーパスで事前訓練され、その後下流タスクで微調整される。 従来の研究は、下流タスクのトレーニングセットがモデルの性能および評価セットに与える影響について研究した。 そこで本研究では,微調整タスクのトレーニングセットを対象とした自動データセットプルーニング手法を提案する。 本手法は,各トレーニングデータポイントを正しく分類する際のモデルの成功率に基づく。 サブセットサイズを決定するためにユーザフィードバックに頼っていた従来の作業とは異なり,本手法では,各モデルに適応したトレーニングサブセットを自動的に抽出する。 本手法は,データセットプルーニングにおいて,サブセットサイズと評価精度のトレードオフをナビゲートする複数のサブセットを提供する。 私たちの最大のサブセットは、優勝チケットサブセットとも呼ばれており、ファインチューニングタスクの元々のトレーニングセットよりも平均$3 \times$小さいです。 5つの下流タスクと2つの言語モデルに対する実験により、平均して当選チケットサブセットを微調整すると、モデルの評価性能が0.1 %以上向上することが示された。

Transformer-based language models have shown state-of-the-art performance on a variety of natural language understanding tasks. To achieve this performance, these models are first pre-trained on general corpus and then fine-tuned on downstream tasks. Previous work studied the effect of pruning the training set of the downstream tasks on the performance of the model on its evaluation set. In this work, we propose an automatic dataset pruning method for the training set of fine-tuning tasks. Our method is based on the model's success rate in correctly classifying each training data point. Unlike previous work which relies on user feedback to determine subset size, our method automatically extracts training subsets that are adapted for each pair of model and fine-tuning task. Our method provides multiple subsets for use in dataset pruning that navigate the trade-off between subset size and evaluation accuracy. Our largest subset, which we also refer to as the winning ticket subset, is on average $3 \times$ smaller than the original training set of the fine-tuning task. Our experiments on 5 downstream tasks and 2 language models show that, on average, fine-tuning on the winning ticket subsets results in a $0.1 \%$ increase in the evaluation performance of the model.
翻訳日:2024-07-16 01:26:19 公開日:2024-07-11
# 悪質なアタッチメントとURLを配信する恐れのあるアクターが利用したセマンティックスとトピックの発見

Uncovering Semantics and Topics Utilized by Threat Actors to Deliver Malicious Attachments and URLs ( http://arxiv.org/abs/2407.08888v1 )

ライセンス: Link先を確認
Andrey Yakymovych, Abhishek Singh, (参考訳) 最近の脅威レポートは、メールがマルウェアをエンドポイントに届ける最上位のベクターであることを強調している。 これらの統計にもかかわらず、悪意のある電子メールの添付物やURLを検出することは、言語的特徴や文脈的手がかりを無視することが多い。 本研究はBERTopicアン教師なしトピックモデリングを用いて,メールに埋め込まれた共通意味やテーマを識別し,悪意のある添付ファイルやコール・ツー・アクションURLを提供する。 BGE-M3 のような多言語埋め込みモデルを用いて,クラスタリングアルゴリズム (HDBSCAN と OPTICS) を用いてセマンティックな類似性で電子メールをグループ化する。 Phi3-Mini-4K-Instructは、脅威アクターパターンを理解するために、セマンティックな解析とhLDA援助を促進する。 我々の研究は、脅威検出の分野において、悪意あるアタッチメントやURLを提供するために、脅威アクターが一般的に使用するセマンティクスやトピックに関する洞察から、トピック量、コヒーレンス、多様性のメトリクスに関する異なるクラスタリングアルゴリズムを評価し、比較する。

Recent threat reports highlight that email remains the top vector for delivering malware to endpoints. Despite these statistics, detecting malicious email attachments and URLs often neglects semantic cues linguistic features and contextual clues. Our study employs BERTopic unsupervised topic modeling to identify common semantics and themes embedded in email to deliver malicious attachments and call-to-action URLs. We preprocess emails by extracting and sanitizing content and employ multilingual embedding models like BGE-M3 for dense representations, which clustering algorithms(HDBSCAN and OPTICS) use to group emails by semantic similarity. Phi3-Mini-4K-Instruct facilitates semantic and hLDA aid in thematic analysis to understand threat actor patterns. Our research will evaluate and compare different clustering algorithms on topic quantity, coherence, and diversity metrics, concluding with insights into the semantics and topics commonly used by threat actors to deliver malicious attachments and URLs, a significant contribution to the field of threat detection.
翻訳日:2024-07-16 01:26:19 公開日:2024-07-11
# DeepCodeProbe: コード学習でトレーニングされたモデルを理解する

DeepCodeProbe: Towards Understanding What Models Trained on Code Learn ( http://arxiv.org/abs/2407.08890v1 )

ライセンス: Link先を確認
Vahid Majdinasab, Amin Nikanjam, Foutse Khomh, (参考訳) コードと関連するアーティファクトに基づいてトレーニングされた機械学習モデルは、ソフトウェアのメンテナンスに貴重なサポートを提供するが、複雑な内部変数のために解釈可能性の問題に悩まされる。 これらの懸念は、モデルの意思決定プロセスが信頼できる必要がある安全クリティカルなアプリケーションにおいて特に重要である。 これらのモデルで学んだ特定の特徴や表現はいまだに不明であり、広く採用することへの執着が増している。 これらの課題に対処するために,ソフトウェアメンテナンスタスク用に設計されたMLモデルの構文と表現学習能力を調べる,探索的アプローチであるDeepCodeProbeを紹介する。 コードクローン検出,コード要約,コメント生成の最先端モデルにDeepCodeProbeを適用した。 発見によると、小さなモデルは抽象構文表現をキャプチャするが、プログラミング言語の構文を完全に把握する能力は限られている。 モデルキャパシティの増大は構文学習を改善するが、トレーニング時間の増加や過度な適合といったトレードオフを導入する。 DeepCodeProbeはまた、モデルがトレーニングデータから学習する特定のコードパターンを特定する。 さらに、DeepCodeProbeのより広範な応用のためのオープンソースレプリケーションパッケージによってサポートされ、他のコード関連モデルの解釈において、パフォーマンスと解釈可能性を向上させるために、コード上でモデルをトレーニングするためのベストプラクティスを提供します。

Machine learning models trained on code and related artifacts offer valuable support for software maintenance but suffer from interpretability issues due to their complex internal variables. These concerns are particularly significant in safety-critical applications where the models' decision-making processes must be reliable. The specific features and representations learned by these models remain unclear, adding to the hesitancy in adopting them widely. To address these challenges, we introduce DeepCodeProbe, a probing approach that examines the syntax and representation learning abilities of ML models designed for software maintenance tasks. Our study applies DeepCodeProbe to state-of-the-art models for code clone detection, code summarization, and comment generation. Findings reveal that while small models capture abstract syntactic representations, their ability to fully grasp programming language syntax is limited. Increasing model capacity improves syntax learning but introduces trade-offs such as increased training time and overfitting. DeepCodeProbe also identifies specific code patterns the models learn from their training data. Additionally, we provide best practices for training models on code to enhance performance and interpretability, supported by an open-source replication package for broader application of DeepCodeProbe in interpreting other code-related models.
翻訳日:2024-07-16 01:26:19 公開日:2024-07-11
# 超低温原子-分子衝突における超微細-回転エネルギー移動

Hyperfine-to-rotational energy transfer in ultracold atom-molecule collisions ( http://arxiv.org/abs/2407.08891v1 )

ライセンス: Link先を確認
Yi-Xiang Liu, Lingbang Zhu, Jeshurun Luke, Mark C. Babin, Timur V. Tscherbul, Marcin Gronowski, Hela Ladjimi, Michał Tomza, John L. Bohn, Kang-Kuen Ni, (参考訳) 原子-分子衝突における異なる機械的自由度間のエネルギー移動は、広く研究され、広く理解されている。 しかし、スピンを含む系は、特に状態から状態への精度が低いままである。 ここでは、原子超微粒子から分子の回転へのエネルギー移動を直接観察する。$^{87}$Rb ($|F_a,M_{F_a}\rangle = |2,2\rangle$) + $^{40}$K$^{87}$Rb (ロビブロニック基底状態$N=0$) $\longrightarrow$Rb ($ |1,1\rangle$) + KRb ($N=0,1,2$) 外乱。 共鳴強調多光子イオン化法と時間飛行質量分析法を用いて衝突生成物の量子状態を調査した。 また,KRbモノマーを1つのポテンシャルエネルギー表面上を移動させる剛性ロータとして扱うことができると仮定し,スピンと回転自由度の結合を短時間で厳密に考慮した現状量子散乱計算を行った。 計算された積の回転状態分布は、原子-分子ポテンシャルエネルギー表面を広範囲に調整した後でも観測から逸脱し、超低温Rb+KRb衝突において振動の度合いと円錐交叉が重要な役割を果たすことを示唆している。 さらに、我々のab initio計算により、スピン回転結合は円錐交叉付近で劇的に強化され、短距離でエネルギー的にアクセス可能であることが示された。 観測により、スピンが短距離での機械的回転と結合していることが確認され、将来の理論研究のためのベンチマークが確立される。

Energy transfer between different mechanical degrees of freedom in atom-molecule collisions has been widely studied and largely understood. However, systems involving spins remain less explored, especially with a state-to-state precision. Here, we directly observed the energy transfer from atomic hyperfine to molecular rotation in the $^{87}$Rb ($|F_a,M_{F_a}\rangle = |2,2\rangle$) + $^{40}$K$^{87}$Rb (in the rovibronic ground state $N=0$) $\longrightarrow$ Rb ($ |1,1\rangle$) + KRb ($N=0,1,2$) exothermic collision. We probed the quantum states of the collision products using resonance-enhanced multi-photon ionization followed by time-of-flight mass spectrometry. We also carried out state-of-the-art quantum scattering calculations, which rigorously take into account the coupling between the spin and rotational degrees of freedom at short range, and assume that the KRb monomer can be treated as a rigid rotor moving on a single potential energy surface. The calculated product rotational state distribution deviates from the observations even after extensive tuning of the atom-molecule potential energy surface, suggesting that vibrational degrees of freedom and conical intersections play an important part in ultracold Rb + KRb collisions. Additionally, our ab initio calculations indicate that spin-rotation coupling is dramatically enhanced near a conical intersection, which is energetically accessible at short range. The observations confirm that spin is coupled to mechanical rotation at short range and establish a benchmark for future theoretical studies.
翻訳日:2024-07-16 01:26:19 公開日:2024-07-11
# ロングコンテキスト推論のためのプロンプト圧縮法の特徴付け

Characterizing Prompt Compression Methods for Long Context Inference ( http://arxiv.org/abs/2407.08892v1 )

ライセンス: Link先を確認
Siddharth Jha, Lutfi Eren Erdogan, Sehoon Kim, Kurt Keutzer, Amir Gholami, (参考訳) ロングコンテキスト推論は、計算とメモリの要求が増大すると共に、長いコンテキストで推論できる精度の観点から、システムレベルでの課題を提示する。 近年,コンテクスト長を削減するためにプロンプトを圧縮する手法がいくつか提案されている。 しかし、標準化された分析によって異なるタスク間で異なる手法を比較することはほとんど行われていない。 この結果が相反する結果となった。 そこで本研究では,異なるプロンプト圧縮手法の包括的評価と評価を行う。 特に,抽出圧縮,要約に基づく抽象圧縮,トークンプルーニングを解析する。 意外なことに、抽出圧縮は他の全ての手法よりも優れており、最小10倍の精度で圧縮できる。 興味深いことに、最近のいくつかの主張にもかかわらず、トークンプルーニング法は抽出圧縮に遅れることがしばしばある。 要約タスクの限界改善しか見つからなかった。

Long context inference presents challenges at the system level with increased compute and memory requirements, as well as from an accuracy perspective in being able to reason over long contexts. Recently, several methods have been proposed to compress the prompt to reduce the context length. However, there has been little work on comparing the different proposed methods across different tasks through a standardized analysis. This has led to conflicting results. To address this, here we perform a comprehensive characterization and evaluation of different prompt compression methods. In particular, we analyze extractive compression, summarization-based abstractive compression, and token pruning methods. Surprisingly, we find that extractive compression often outperforms all the other approaches, and enables up to 10x compression with minimal accuracy degradation. Interestingly, we also find that despite several recent claims, token pruning methods often lag behind extractive compression. We only found marginal improvements on summarization tasks.
翻訳日:2024-07-16 01:26:19 公開日:2024-07-11
# AI/ML実践者はAI/MLバイアスについてどう考えるか?

What do AI/ML practitioners think about AI/ML bias? ( http://arxiv.org/abs/2407.08895v1 )

ライセンス: Link先を確認
Aastha Pant, Rashina Hoda, Burak Turhan, Chakkrit Tantithamthavorn, (参考訳) AIリーダや企業は、開発するAI/MLシステムのバイアスに対処し緩和する上で、AI/ML実践者を支援するために、多くのものを提供しています。 AI/ML実践者は、偏見のないAI/MLシステムを開発するために、専門家から必要なリソースとサポートを受けなければならない。 しかし,本研究では,「AI/MLバイアス」に対する実践者の理解と,技術系企業や研究者の定義との相違を明らかにした。 これは、対処が必要な不一致を示しています。 AI/MLバイアスに対する実践者の理解と、テック企業や研究者によって開発された定義とを一致させる努力をしなければならない。 これらの取り組みは、AI/ML実践者が偏見のないAI/MLシステムの開発を支援することによって、投資に多大な利益をもたらす可能性がある。

AI leaders and companies have much to offer to AI/ML practitioners to support them in addressing and mitigating biases in the AI/ML systems they develop. AI/ML practitioners need to receive the necessary resources and support from experts to develop unbiased AI/ML systems. However, our studies have revealed a discrepancy between practitioners' understanding of 'AI/ML bias' and the definitions of tech companies and researchers. This indicates a misalignment that needs addressing. Efforts should be made to match practitioners' understanding of AI/ML bias with the definitions developed by tech companies and researchers. These efforts could yield a significant return on investment by aiding AI/ML practitioners in developing unbiased AI/ML systems.
翻訳日:2024-07-16 01:16:30 公開日:2024-07-11
# モンテカルロシミュレーションによる微細構造進化の異常粒成長予測のためのグラフ畳み込みネットワーク

Graph convolutional network for predicting abnormal grain growth in Monte Carlo simulations of microstructural evolution ( http://arxiv.org/abs/2110.09326v2 )

ライセンス: Link先を確認
Ryan Cohn, Elizabeth Holm, (参考訳) グラフニューラルネットワークの最近の発展は、異常な粒成長の発生を予測することを約束している。 本研究では,異常粒成長のモンテカルロシミュレーションの大規模なデータセットを生成する。 簡単なグラフ畳み込みネットワークをトレーニングし、どの初期構造が異常な粒成長を示すかを予測し、その結果を同じタスクに対して標準的なコンピュータビジョンアプローチと比較する。 グラフニューラルネットワークはコンピュータビジョン法より優れており、予測精度は73%、偽陽性は少ない。 また、特徴の重要性と、予測性能を最大化するために必要な関連する長さスケールに関する物理的な洞察も提供した。 モンテカルロシミュレーションの不確実性の解析は、この領域で進行中の作業に対してさらなる洞察を与える。

Recent developments in graph neural networks show promise for predicting the occurrence of abnormal grain growth, which has been a particularly challenging area of research due to its apparent stochastic nature. In this study, we generate a large dataset of Monte Carlo simulations of abnormal grain growth. We train simple graph convolution networks to predict which initial microstructures will exhibit abnormal grain growth, and compare the results to a standard computer vision approach for the same task. The graph neural network outperformed the computer vision method and achieved 73% prediction accuracy and fewer false positives. It also provided some physical insight into feature importance and the relevant length scale required to maximize predictive performance. Analysis of the uncertainty in the Monte Carlo simulations provides additional insights for ongoing work in this area.
翻訳日:2024-07-13 00:16:54 公開日:2024-07-11
# 固有探索のための潜在変数モデル

A Latent-Variable Model for Intrinsic Probing ( http://arxiv.org/abs/2201.08214v3 )

ライセンス: Link先を確認
Karolina Stańczak, Lucas Torroba Hennigen, Adina Williams, Ryan Cotterell, Isabelle Augenstein, (参考訳) 事前訓練された文脈表現の成功は、研究者に言語情報の存在を解析させるきっかけとなった。 実際、これらの事前学習された表現が、多種多様なNLPタスクに対して大規模な経験的改善をもたらしたため、ある程度の言語知識をエンコードしていると仮定することは自然なことであり、真の言語一般化を学習していることを示唆している。 本研究では,表現が言語属性を符号化するかどうかを識別するだけでなく,その属性が符号化された場所をピンポイントする解析手法である内在的探索に焦点を当てる。 そこで本研究では,固有プローブ構築のための新しい潜在変数定式化法を提案し,ログ類似度に対するトラクタブルな変分近似を導出する。 本研究の結果は,本研究で提案した2つの固有プローブよりも多種多様であり,相互情報推定がより厳密であることが示唆された。 最後に、事前訓練された表現が交叉的に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見いだす。

The success of pre-trained contextualized representations has prompted researchers to analyze them for the presence of linguistic information. Indeed, it is natural to assume that these pre-trained representations do encode some level of linguistic knowledge as they have brought about large empirical improvements on a wide variety of NLP tasks, which suggests they are learning true linguistic generalization. In this work, we focus on intrinsic probing, an analysis technique where the goal is not only to identify whether a representation encodes a linguistic attribute but also to pinpoint where this attribute is encoded. We propose a novel latent-variable formulation for constructing intrinsic probes and derive a tractable variational approximation to the log-likelihood. Our results show that our model is versatile and yields tighter mutual information estimates than two intrinsic probes previously proposed in the literature. Finally, we find empirical evidence that pre-trained representations develop a cross-lingually entangled notion of morphosyntax.
翻訳日:2024-07-13 00:16:54 公開日:2024-07-11
# ゼロサムニューロシンボリック同時確率ゲームのための戦略合成

Strategy Synthesis for Zero-Sum Neuro-Symbolic Concurrent Stochastic Games ( http://arxiv.org/abs/2202.06255v7 )

ライセンス: Link先を確認
Rui Yan, Gabriel Santos, Gethin Norman, David Parker, Marta Kwiatkowska, (参考訳) ニューラルネットワークと古典的な記号技法を組み合わせた人工知能へのニューロシンボリックアプローチは、その正しさを判断するために正式なアプローチを必要とする。 本稿では,共有連続状態環境下で相互作用する2つの確率的有限状態エージェントからなる,ニューロシンボリック同時確率ゲーム(NS-CSGs)と呼ばれるモデリング形式を提案する。 各エージェントは、画像などの入力を象徴的な知覚に変換するニューラルネットワークメカニズムを使用して環境を観察し、象徴的な決定を行う。 本稿では,ボレル状態空間を持つNS-CSGのクラスに着目し,このモデルのコンポーネントに対する一括一貫した制約の下でゼロサム割引累積報酬に対する値関数の存在と可測性を示す。 本研究では,新しいCSGのサブクラスを解くために,実効値反復(VI)とポリシー反復(PI)アルゴリズムを初めて提案する。 これらはエージェントの神経知覚機構によって引き起こされる環境の有限分解を必要とし、VI または PI の下に閉じた値関数と戦略の有限抽象表現に依存する。 まず、値関数のボレル可測なピースワイズ定数(B-PWC)表現を導入し、ミニマックスバックアップをこの表現に拡張し、B-PWC VIと呼ばれる値反復アルゴリズムを提案する。 第二に、値関数と戦略に対する2つの新しい表現、それぞれ定数ピースリニア(CON-PWL)と定数ピースリニア(CON-PWC)を導入し、有限状態空間のプレイヤー選択の交互化に基づく最近のPI法をボレル状態空間に拡張し、通常の形式ゲームを必要としないミニマックスアクションフリーPIを提案する。

Neuro-symbolic approaches to artificial intelligence, which combine neural networks with classical symbolic techniques, are growing in prominence, necessitating formal approaches to reason about their correctness. We propose a novel modelling formalism called neuro-symbolic concurrent stochastic games (NS-CSGs), which comprise two probabilistic finite-state agents interacting in a shared continuous-state environment. Each agent observes the environment using a neural perception mechanism, which converts inputs such as images into symbolic percepts, and makes decisions symbolically. We focus on the class of NS-CSGs with Borel state spaces and prove the existence and measurability of the value function for zero-sum discounted cumulative rewards under piecewise-constant restrictions on the components of this class of models. To compute values and synthesise strategies, we present, for the first time, practical value iteration (VI) and policy iteration (PI) algorithms to solve this new subclass of continuous-state CSGs. These require a finite decomposition of the environment induced by the neural perception mechanisms of the agents and rely on finite abstract representations of value functions and strategies closed under VI or PI. First, we introduce a Borel measurable piecewise-constant (B-PWC) representation of value functions, extend minimax backups to this representation and propose a value iteration algorithm called B-PWC VI. Second, we introduce two novel representations for the value functions and strategies, constant-piecewise-linear (CON-PWL) and constant-piecewise-constant (CON-PWC) respectively, and propose Minimax-action-free PI by extending a recent PI method based on alternating player choices for finite state spaces to Borel state spaces, which does not require normal-form games to be solved.
翻訳日:2024-07-13 00:16:54 公開日:2024-07-11
# ノベルティ探索に基づく粒子群最適化

Particle Swarm Optimization based on Novelty Search ( http://arxiv.org/abs/2203.05674v3 )

ライセンス: Link先を確認
Mr. Rajesh Misra, Dr. Kumar S Ray, (参考訳) 本稿では,ノベルティ探索と組み合わせた粒子群最適化アルゴリズムを提案する。 Novelty Searchは、検索ドメインで検索する新しい場所を見つけ、次にParticle Swarm Optimizationはその領域を厳格に検索して、グローバルな最適解を求める。 この方法は、客観的な自由であるノベルティサーチによって制御されるため、ローカルオプティマではブロックされない。 より局所的な最適値と第二大域的最適値がより多く存在する関数は、真の最適値には程遠いので、本手法はうまく機能する。 現在のアルゴリズムは、検索エリア全体を検索するまで停止しない。 一連の実験により、複素最適化テスト関数に対する現在のアルゴリズムの堅牢性と有効性が証明された。

In this paper we propose a Particle Swarm Optimization algorithm combined with Novelty Search. Novelty Search finds novel place to search in the search domain and then Particle Swarm Optimization rigorously searches that area for global optimum solution. This method is never blocked in local optima because it is controlled by Novelty Search which is objective free. For those functions where there are many more local optima and second global optimum is far from true optimum, the present method works successfully. The present algorithm never stops until it searches entire search area. A series of experimental trials prove the robustness and effectiveness of the present algorithm on complex optimization test functions.
翻訳日:2024-07-13 00:16:54 公開日:2024-07-11
# セメントペーストの2次元後方散乱電子画像からの3次元微細構造画像合成

Three-dimensional Microstructural Image Synthesis from 2D Backscattered Electron Image of Cement Paste ( http://arxiv.org/abs/2204.01645v2 )

ライセンス: Link先を確認
Xin Zhao, Lin Wang, Qinfei Li, Heng Chen, Shuangrong Liu, Pengkun Hou, Xu Wu, Jianfeng Yuan, Haozhong Gao, Bo Yang, (参考訳) 本稿では,高品質でリアルな3D画像を低コストで作成可能な,単一の2次元(2次元)画像から3次元微細構造を生成するディープラーニングベースの手法を提案する。 フレームワーク(CEM3DMG)は、2D後方散乱電子(BSE)画像から微細構造情報を学習することにより3D画像を合成するように設計されている。 実験の結果,CEM3DMGは1ピクセルあたり0.47$\mu m$の解像度で任意の大きさのリアルな3D画像を生成することができた。 視覚的な観察により、生成された3D画像は細孔や粒子形態を含む2D画像と類似した微細構造を示すことが確認された。 さらに、定量分析により、これらの3次元微細構造は、灰色レベルのヒストグラム、位相比、孔径分布の点で、実際の2次元微細構造と密に一致していることが明らかとなった。

This paper proposes a deep learning-based method for generating 3D microstructures from a single two-dimensional (2D) image, capable of producing high-quality, realistic 3D images at low cost. In the method, a framework (CEM3DMG) is designed to synthesize 3D images by learning microstructural information from a 2D backscattered electron (BSE) image. Experimental results show that CEM3DMG can generate realistic 3D images of arbitrary size with a resolution of 0.47 $\mu m$ per pixel. Visual observation confirms that the generated 3D images exhibit similar microstructural features to the 2D images, including pores and particles morphology. Furthermore, quantitative analysis reveals that these 3D microstructures closely match the real 2D microstructure in terms of gray level histogram, phase proportions, and pore size distribution.
翻訳日:2024-07-13 00:16:54 公開日:2024-07-11
# 物体検出システムに対するヒューマン・イン・ザ・ミドル攻撃

A Human-in-the-Middle Attack against Object Detection Systems ( http://arxiv.org/abs/2208.07174v4 )

ライセンス: Link先を確認
Han Wu, Sareh Rowlands, Johan Wahlstrom, (参考訳) ディープラーニングモデルを用いた物体検出システムは、組み込みシステムにおけるCPUとGPUの増大により、ロボット工学においてますます人気が高まっている。 しかし、これらのモデルは敵攻撃の影響を受けやすい。 いくつかの攻撃は検出システムへのアクセスに関する厳密な仮定によって制限されているが、暗号におけるman-in-the-Middle攻撃にインスパイアされた新しいハードウェア攻撃を提案する。 この攻撃は、UAP(Universal Adversarial Perturbations)を生成し、ハードウェアアタックを介してUSBカメラと検出システムの間の摂動を注入する。 さらに、先行研究は、攻撃性能よりもモデル精度を計測する評価指標によって誤解される。 提案手法と組み合わせて, 対向摂動の強度を有意に向上させた。 これらの知見は、自律運転のような安全クリティカルなシステムにおけるディープラーニングモデルの適用に対する深刻な懸念を提起する。

Object detection systems using deep learning models have become increasingly popular in robotics thanks to the rising power of CPUs and GPUs in embedded systems. However, these models are susceptible to adversarial attacks. While some attacks are limited by strict assumptions on access to the detection system, we propose a novel hardware attack inspired by Man-in-the-Middle attacks in cryptography. This attack generates a Universal Adversarial Perturbations (UAP) and injects the perturbation between the USB camera and the detection system via a hardware attack. Besides, prior research is misled by an evaluation metric that measures the model accuracy rather than the attack performance. In combination with our proposed evaluation metrics, we significantly increased the strength of adversarial perturbations. These findings raise serious concerns for applications of deep learning models in safety-critical systems, such as autonomous driving.
翻訳日:2024-07-13 00:16:54 公開日:2024-07-11
# 誤りのない仮想Zゲートモデルを用いたゲートセットトモグラフィーを用いたキューディット論理ゲートの効率的なキャラクタリゼーション

Efficient characterization of qudit logical gates with gate set tomography using an error-free Virtual-Z-gate model ( http://arxiv.org/abs/2210.04857v4 )

ライセンス: Link先を確認
Shuxiang Cao, Deep Lall, Mustafa Bakr, Giulio Campanaro, Simone Fasciati, James Wills, Vivek Chidambaram, Boris Shteynas, Ivan Rungger, Peter Leek, (参考訳) ゲートセットトモグラフィ(GST)は、量子論理ゲートのプロセス行列と、量子プロセッサにおける測定および状態準備エラーを特徴付ける。 GSTは通常、モデル推定のために広範なデータ収集と重要な計算資源を必要とする。 仮想Zゲートが誤りのないと仮定しながら、ファデュアルを構築するためにqudit Hadamard と Virtual Z gate を用いたより効率的な GST アプローチを提案する。 提案手法は,評価結果の計算コストを削減し,GSTの大規模化を図る。 超伝導トランスモンクォートへのこのアプローチの適用性を実験的に実証した。

Gate-set tomography (GST) characterizes the process matrix of quantum logic gates, along with measurement and state preparation errors in quantum processors. GST typically requires extensive data collection and significant computational resources for model estimation. We propose a more efficient GST approach for qudits, utilizing the qudit Hadamard and virtual Z gates to construct fiducials while assuming virtual Z gates are error-free. Our method reduces the computational costs of estimating characterization results, making GST more practical at scale. We experimentally demonstrate the applicability of this approach on a superconducting transmon qutrit.
翻訳日:2024-07-13 00:16:54 公開日:2024-07-11
# MiDe22:誤情報検出のためのアノテーション付きマルチイベントツイートデータセット

MiDe22: An Annotated Multi-Event Tweet Dataset for Misinformation Detection ( http://arxiv.org/abs/2210.05401v2 )

ライセンス: Link先を確認
Cagri Toraman, Oguzhan Ozcelik, Furkan Şahinuç, Fazli Can, (参考訳) オンラインソーシャルネットワークによる誤報の急速な拡散は、人間の健康、公共安全、民主主義、経済を危険にさらすような問題を引き起こす。 本研究では、ロシアとウクライナの戦争、新型コロナウイルスのパンデミック、難民など、2020年から2022年にかけてのいくつかの出来事について、英文5,284件、トルコ語5,064件のツイートに偽情報ラベルを付けた、MiDe22という新たな人称データセットを構築した。 データセットには、いいね!、リプライ、リツイート、引用などの観点から、ツイートとのユーザエンゲージメントが含まれている。 また、記述統計を用いた詳細なデータ分析と、誤情報検出のためのベンチマーク評価の実験結果も提供する。

The rapid dissemination of misinformation through online social networks poses a pressing issue with harmful consequences jeopardizing human health, public safety, democracy, and the economy; therefore, urgent action is required to address this problem. In this study, we construct a new human-annotated dataset, called MiDe22, having 5,284 English and 5,064 Turkish tweets with their misinformation labels for several recent events between 2020 and 2022, including the Russia-Ukraine war, COVID-19 pandemic, and Refugees. The dataset includes user engagements with the tweets in terms of likes, replies, retweets, and quotes. We also provide a detailed data analysis with descriptive statistics and the experimental results of a benchmark evaluation for misinformation detection.
翻訳日:2024-07-13 00:16:54 公開日:2024-07-11
# 空間空域統合ネットワーク上でのフェデレーション強化学習に基づく交通負荷の微分化

Differentiated Federated Reinforcement Learning Based Traffic Offloading on Space-Air-Ground Integrated Networks ( http://arxiv.org/abs/2212.02075v3 )

ライセンス: Link先を確認
Yeguang Qin, Yilin Yang, Fengxiao Tang, Xin Yao, Ming Zhao, Nei Kato, (参考訳) Space-Air-Ground Integrated Network (SAGIN) は、高度に効率的なグローバルデータ伝送の機会を提供する包括的基盤となるネットワーク通信基盤として重要な役割を担っている。 しかしながら、SAGINの動的異種ネットワークとしてのユニークな特徴を考えると、従来のネットワーク最適化手法は、このネットワーク環境におけるデータ伝送に固有のネットワーク遅延と安定性の厳密な要件を満たすことの難しさに直面する。 そこで本論文では,SAGINにおけるトラヒックオフローディング問題,すなわち,複数のエージェントを用いてトラヒックオフローディングポリシーを生成するために,差分型フェデレーション強化学習(DFRL)を用いることを提案する。 DFRLは、SAGINの各領域の異なる特性を考慮して、分散化された部分観測可能マルコフ決定プロセス(DEC-POMDP)問題を解決するプロセスとして、トラフィックオフロードポリシー最適化プロセスをモデル化する。 本稿では,この問題を解決するために,新たな微分型フェデレート・ソフト・アクター・クリティカル (DFSAC) アルゴリズムを提案する。 DFSACアルゴリズムは、ネットワークパケット遅延を共同報酬値とし、各エージェントの目標アクション値関数としてグローバルトレンドモデルを導入し、各エージェントのポリシーの更新をガイドする。 シミュレーションの結果,DFSACアルゴリズムに基づくトラヒックオフロードポリシは,従来のフェデレーション強化学習手法やベースラインアプローチと比較して,ネットワークスループット,パケット損失率,パケット遅延の面で優れた性能を実現することが示された。

The Space-Air-Ground Integrated Network (SAGIN) plays a pivotal role as a comprehensive foundational network communication infrastructure, presenting opportunities for highly efficient global data transmission. Nonetheless, given SAGIN's unique characteristics as a dynamically heterogeneous network, conventional network optimization methodologies encounter challenges in satisfying the stringent requirements for network latency and stability inherent to data transmission within this network environment. Therefore, this paper proposes the use of differentiated federated reinforcement learning (DFRL) to solve the traffic offloading problem in SAGIN, i.e., using multiple agents to generate differentiated traffic offloading policies. Considering the differentiated characteristics of each region of SAGIN, DFRL models the traffic offloading policy optimization process as the process of solving the Decentralized Partially Observable Markov Decision Process (DEC-POMDP) problem. The paper proposes a novel Differentiated Federated Soft Actor-Critic (DFSAC) algorithm to solve the problem. The DFSAC algorithm takes the network packet delay as the joint reward value and introduces the global trend model as the joint target action-value function of each agent to guide the update of each agent's policy. The simulation results demonstrate that the traffic offloading policy based on the DFSAC algorithm achieves better performance in terms of network throughput, packet loss rate, and packet delay compared to the traditional federated reinforcement learning approach and other baseline approaches.
翻訳日:2024-07-13 00:16:54 公開日:2024-07-11
# ブラックボックス内のアルゴリズムバイアスの検出と緩和

Inside the Black Box: Detecting and Mitigating Algorithmic Bias across Racialized Groups in College Student-Success Prediction ( http://arxiv.org/abs/2301.03784v2 )

ライセンス: Link先を確認
Denisa Gándara, Hadis Anahideh, Matthew P. Ison, Lorenzo Picchiarini, (参考訳) 大学や大学は、入学、予算、学生教育の介入など、様々な決定を伝えるために、大学学生の成功を予測するアルゴリズムに目を向けている。 予測アルゴリズムは歴史的データに依存しているため、人種差別を含む社会的不正を捉えている。 本研究では,大学生の成功予測の精度が人種集団間でどのように異なるか,アルゴリズムバイアスのシグナルとなるかを検討する。 我々はまた、このバイアスに対処する主要なバイアス緩和技術の有用性を評価する。 2002年度教育縦断調査および各種機械学習モデリング手法の全国的代表データを用いて、人種的にマイノリティのある学生の成功を予測する際に、大学学生の成功を予測するためによく使われる特徴を取り入れたモデルがいかに正確でないかを実証した。 アルゴリズムバイアスを緩和するための一般的なアプローチは、一般的に、予測結果の相違や人種化されたグループ間の正確性を排除するのに効果がない。

Colleges and universities are increasingly turning to algorithms that predict college-student success to inform various decisions, including those related to admissions, budgeting, and student-success interventions. Because predictive algorithms rely on historical data, they capture societal injustices, including racism. In this study, we examine how the accuracy of college student success predictions differs between racialized groups, signaling algorithmic bias. We also evaluate the utility of leading bias-mitigating techniques in addressing this bias. Using nationally representative data from the Education Longitudinal Study of 2002 and various machine learning modeling approaches, we demonstrate how models incorporating commonly used features to predict college-student success are less accurate when predicting success for racially minoritized students. Common approaches to mitigating algorithmic bias are generally ineffective at eliminating disparities in prediction outcomes and accuracy between racialized groups.
翻訳日:2024-07-13 00:16:54 公開日:2024-07-11
# SuperFedNAS: オンデバイス推論のためのコスト効率の良いフェデレーションニューラルネットワーク検索

SuperFedNAS: Cost-Efficient Federated Neural Architecture Search for On-Device Inference ( http://arxiv.org/abs/2301.10879v3 )

ライセンス: Link先を確認
Alind Khare, Animesh Agrawal, Aditya Annavajjala, Payman Behnam, Myungjin Lee, Hugo Latapie, Alexey Tumanov, (参考訳) フェデレートラーニング(FL)のためのニューラルアーキテクチャサーチ(NAS)は新興分野である。 プライバシ、通信コスト、規制制限のためにデータが集中できない場合、Deep Neural Networks(DNN)の設計とトレーニングを自動化する。 最近のフェデレーションNAS法は、手作業の労力を減らすだけでなく、FedAvgのような従来のFL法よりも高い精度を達成するのに役立つ。 成功にもかかわらず、既存のフェデレーションNASメソッドは、ハードウェア、遅延予算、可変バッテリレベルといったオンデバイス推論で一般的な多様なデプロイメントターゲットを満たすには、依然として不足している。 ほとんどのNAS法は、限られた範囲の神経構造パターンのみを探索し、それらをDNNで繰り返し、達成可能な性能を制限する。 さらに、これらの手法は、デプロイメント目標を満たすために、禁止的なトレーニングコストを発生させる。 DNNアーキテクチャのトレーニングと検索を各ケースで繰り返し行う。 SuperFedNASは、フェデレートNASのトレーニングと検索を分離することで、これらの課題に対処する。 SuperFedNASはFL設定の1つのスーパーネットに含まれる多数の多様なDNNアーキテクチャを共同で訓練している。 トレーニング後、クライアントはローカルでNASを実行し、トレーニングされたスーパーネットの異なる部分を追加のトレーニングなしで抽出することで、特別なDNNを見つける。 SuperFedNAS は O(1) (O(N) の代わりに) のコストを FL で特別な DNN アーキテクチャを見つけるのに費やします。 SuperFedNASの一部として,多数のDNNアーキテクチャ(5*10^8$)の多目的フェデレーション最適化を行う新しいFLトレーニングアルゴリズムであるMaxNetを紹介する。 全体として、SuperFedNASは同じMACに対して最大37.7%、既存のNAS法と同じ精度で最大8.13倍のMACを削減できる。

Neural Architecture Search (NAS) for Federated Learning (FL) is an emerging field. It automates the design and training of Deep Neural Networks (DNNs) when data cannot be centralized due to privacy, communication costs, or regulatory restrictions. Recent federated NAS methods not only reduce manual effort but also help achieve higher accuracy than traditional FL methods like FedAvg. Despite the success, existing federated NAS methods still fall short in satisfying diverse deployment targets common in on-device inference like hardware, latency budgets, or variable battery levels. Most federated NAS methods search for only a limited range of neuro-architectural patterns, repeat them in a DNN, thereby restricting achievable performance. Moreover, these methods incur prohibitive training costs to satisfy deployment targets. They perform the training and search of DNN architectures repeatedly for each case. SuperFedNAS addresses these challenges by decoupling the training and search in federated NAS. SuperFedNAS co-trains a large number of diverse DNN architectures contained inside one supernet in the FL setting. Post-training, clients perform NAS locally to find specialized DNNs by extracting different parts of the trained supernet with no additional training. SuperFedNAS takes O(1) (instead of O(N)) cost to find specialized DNN architectures in FL for any N deployment targets. As part of SuperFedNAS, we introduce MaxNet - a novel FL training algorithm that performs multi-objective federated optimization of a large number of DNN architectures ($\approx 5*10^8$) under different client data distributions. Overall, SuperFedNAS achieves upto 37.7% higher accuracy for the same MACs or upto 8.13x reduction in MACs for the same accuracy than existing federated NAS methods.
翻訳日:2024-07-13 00:16:54 公開日:2024-07-11
# 脱バイアス自己注意によるフェアネス認識型視覚変換器

Fairness-aware Vision Transformer via Debiased Self-Attention ( http://arxiv.org/abs/2301.13803v3 )

ライセンス: Link先を確認
Yao Qiang, Chengyin Li, Prashant Khanduri, Dongxiao Zhu, (参考訳) 視覚変換器(ViT)は近年,情報的特徴を抽出し,注意機構を通じて長距離依存をモデル化する能力により,コンピュータビジョン(CV)問題の解決に大きな注目を集めている。 近年の研究では、その堅牢性や説明可能性など、ViTの信頼性について検討されているが、公平性の問題はまだ十分に解決されていない。 CNN向けに設計された既存のフェアネス対応アルゴリズムはViTではうまく動作せず、デバイアスド・セルフアテンション(DSA)を介して新しいフレームワークを開発する必要性を強調している。 DSAはフェアネススルー・ブラインドネスアプローチであり、ViTを強制し、バイアス軽減のためのセンシティブなラベルに関連付けられた刺激的な特徴を排除し、ターゲット予測のための実際の特徴を同時に保持する。 特に、DSAは敵対的な例を活用して、入力画像パッチの突発的な特徴を発見・隠蔽し、トレーニング目標に注意重み調整正則化を付加し、目標予測のための実際の特徴の学習を促す。 重要なことは、我々のDSAフレームワークは、目標予測性能を損なうことなく、複数の予測タスクに対する事前作業よりも公平性を保証する。 コードは \href{https://github.com/qiangyao1988/DSA}{https://github.com/qiangyao1988/DSA} で公開されている。

Vision Transformer (ViT) has recently gained significant attention in solving computer vision (CV) problems due to its capability of extracting informative features and modeling long-range dependencies through the attention mechanism. Whereas recent works have explored the trustworthiness of ViT, including its robustness and explainability, the issue of fairness has not yet been adequately addressed. We establish that the existing fairness-aware algorithms designed for CNNs do not perform well on ViT, which highlights the need to develop our novel framework via Debiased Self-Attention (DSA). DSA is a fairness-through-blindness approach that enforces ViT to eliminate spurious features correlated with the sensitive label for bias mitigation and simultaneously retain real features for target prediction. Notably, DSA leverages adversarial examples to locate and mask the spurious features in the input image patches with an additional attention weights alignment regularizer in the training objective to encourage learning real features for target prediction. Importantly, our DSA framework leads to improved fairness guarantees over prior works on multiple prediction tasks without compromising target prediction performance. Code is available at \href{https://github.com/qiangyao1988/DSA}{https://github.com/qiangyao1988/DSA}.
翻訳日:2024-07-13 00:07:09 公開日:2024-07-11
# 心のギャップ! 説明可能な人工知能の橋渡しとルーマンの機能的コミュニケーション理論による人間の理解

Mind the Gap! Bridging Explainable Artificial Intelligence and Human Understanding with Luhmann's Functional Theory of Communication ( http://arxiv.org/abs/2302.03460v3 )

ライセンス: Link先を確認
Bernard Keenan, Kacper Sokol, (参考訳) 過去10年間で、説明可能な人工知能は、主に技術的な分野から、社会科学と深く絡み合う分野へと進化してきた。 対照的な(より正確には、反事実的な)説明に対する人間の嗜好のような洞察は、この移行に大きな役割を果たし、コンピュータ科学の研究を刺激し、指導してきた。 他の観測は、等しく重要であるが、それでもはるかに少ない考慮を受け取っている。 対話のような対話を通じて、人工知能の説明者とコミュニケーションしたいという人間の欲求は、コミュニティによってほとんど無視されてきた。 このことは、事前定義された目的に従って最適化された1つの説明を提供することで、受信者に対する理解が得られず、人間の知識と意図の多様性を考慮に入れた独自のニーズを満たすことができず、そのような技術の有効性と普及に多くの課題を提起する。 ニコラス・ルーマン(Niklas Luhmann)やエレナ・エスポジット(Elena Esposito)による詳細な知見を用いて、社会システム理論を応用し、説明可能な人工知能の課題を強調し、対話的かつ反復的な説明者の方向における技術研究の活性化を目指す。 具体的には,人間中心で説明可能な人工知能の問題点と限界を解明し,解決するためのシステム理論的アプローチの可能性を示す。

Over the past decade explainable artificial intelligence has evolved from a predominantly technical discipline into a field that is deeply intertwined with social sciences. Insights such as human preference for contrastive -- more precisely, counterfactual -- explanations have played a major role in this transition, inspiring and guiding the research in computer science. Other observations, while equally important, have nevertheless received much less consideration. The desire of human explainees to communicate with artificial intelligence explainers through a dialogue-like interaction has been mostly neglected by the community. This poses many challenges for the effectiveness and widespread adoption of such technologies as delivering a single explanation optimised according to some predefined objectives may fail to engender understanding in its recipients and satisfy their unique needs given the diversity of human knowledge and intention. Using insights elaborated by Niklas Luhmann and, more recently, Elena Esposito we apply social systems theory to highlight challenges in explainable artificial intelligence and offer a path forward, striving to reinvigorate the technical research in the direction of interactive and iterative explainers. Specifically, this paper demonstrates the potential of systems theoretical approaches to communication in elucidating and addressing the problems and limitations of human-centred explainable artificial intelligence.
翻訳日:2024-07-13 00:07:09 公開日:2024-07-11
# 定常状態から量子チャネルを学ぶ

Learning a quantum channel from its steady-state ( http://arxiv.org/abs/2302.06517v3 )

ライセンス: Link先を確認
Yigal Ilin, Itai Arad, (参考訳) 本研究では,その定常状態である単一状態上で測定された局所的な期待値を用いて,局所的な量子チャネルを学習するスケーラブルな方法を提案する。 我々の手法は、現地のハミルトンを基底状態から学習するためのアルゴリズムにインスパイアされている。 成功するためには、定常状態は非自明でなければならないので、チャネルは非単体である必要がある。 このような単体チャネルは、現在の量子コンピュータでは中間回路測定やRESETゲートを使って容易に実装できる。 このようなチャネルの完全な構造が定常状態に符号化され、これらの状態における局所観測値の期待値のみを用いて効率的に学習できることを実証する。 アプローチを説明するための2つの直接的なアプリケーションを強調します。 二 工学的散逸力学を用いて、全ての量子ビットを有効活用する体制において、与えられた雑音モデルの精度を評価するための簡単な方法を提供する。 (2)システム全体のパラメータ化ノイズモデルが与えられた場合,本手法は基礎となるパラメータを学習することができる。 数値シミュレーションとIBMQマシンを用いた実験を行った。

We present a scalable method for learning local quantum channels using local expectation values measured on a single state -- their steady state. Our method is inspired by the algorithms for learning local Hamiltonians from their ground states. For it to succeed, the steady state must be non-trivial, and therefore the channel needs to be non-unital. Such non-unital channels are readily implementable on present day quantum computers using mid-circuit measurements or RESET gates. We demonstrate that the full structure of such channels is encoded in their steady states, and can be learned efficiently using only the expectation values of local observables on these states. We emphasize two immediate applications to illustrate our approach: (i) Using engineered dissipative dynamics, we offer a straightforward way to assess the accuracy of a given noise model in a regime where all qubits are actively utilized for a significant duration. (ii) Given a parameterized noise model for the entire system, our method can learn its underlying parameters. We demonstrate both applications using numerical simulations and experimental trials conducted on an IBMQ machine.
翻訳日:2024-07-13 00:07:09 公開日:2024-07-11
# SpikeGPT:スパイクニューラルネットワークを用いた生成事前学習言語モデル

SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks ( http://arxiv.org/abs/2302.13939v5 )

ライセンス: Link先を確認
Rui-Jie Zhu, Qihang Zhao, Guoqi Li, Jason K. Eshraghian, (参考訳) 大きな言語モデルのサイズが拡大し続けるにつれて、それを実行するのに必要な計算資源も大きくなる。 スパイキングニューラルネットワーク(SNN)は、スパースとイベント駆動のアクティベーションを活用して、モデル推論に関連する計算オーバーヘッドを低減する、ディープラーニングに対するエネルギー効率のよいアプローチとして登場した。 多くのコンピュータビジョンタスクにおける非スパイキングモデルと競合する一方で、SNNはトレーニングがより難しいことも証明している。 その結果,それらの性能は現代のディープラーニングよりも遅れており,言語生成におけるSNNの有効性はまだ分かっていない。 本稿では,Receptance Weighted Key Value (RWKV)言語モデルにヒントを得て,イベント駆動型スパイクアクティベーションユニットを持つ生成言語モデルである 'SpikeGPT' の実装に成功した。 提案したモデルは、45Mと216Mパラメーターの2つのモデル変種に基づいて訓練する。 我々の知る限り、SpikeGPTは今までで最大のバックプロパゲーション訓練SNNモデルであり、自然言語の生成と理解の両方に適している。 変換器ブロックを改良して,2次計算複雑性O(N^2)を2次計算複雑性O(N)に減らし,シーケンス長を増大させる。 代わりに入力トークンは、(典型的なSNNのように)注意機構に順次ストリームされます。 予備実験では、SpikeGPTはテストベンチマークの非スパイキングモデルと競合する一方で、スパースでイベント駆動のアクティベーションを活用できるニューロモルフィックハードウェアで処理した場合の操作数を20倍に抑えることができた。 私たちのコード実装はhttps://github.com/ridgerchu/SpikeGPT.comで公開されています。

As the size of large language models continue to scale, so does the computational resources required to run it. Spiking Neural Networks (SNNs) have emerged as an energy-efficient approach to deep learning that leverage sparse and event-driven activations to reduce the computational overhead associated with model inference. While they have become competitive with non-spiking models on many computer vision tasks, SNNs have also proven to be more challenging to train. As a result, their performance lags behind modern deep learning, and we are yet to see the effectiveness of SNNs in language generation. In this paper, inspired by the Receptance Weighted Key Value (RWKV) language model, we successfully implement `SpikeGPT', a generative language model with binary, event-driven spiking activation units. We train the proposed model on two model variants: 45M and 216M parameters. To the best of our knowledge, SpikeGPT is the largest backpropagation-trained SNN model to date, rendering it suitable for both the generation and comprehension of natural language. We achieve this by modifying the transformer block to replace multi-head self attention to reduce quadratic computational complexity O(N^2) to linear complexity O(N) with increasing sequence length. Input tokens are instead streamed in sequentially to our attention mechanism (as with typical SNNs). Our preliminary experiments show that SpikeGPT remains competitive with non-spiking models on tested benchmarks, while maintaining 20x fewer operations when processed on neuromorphic hardware that can leverage sparse, event-driven activations. Our code implementation is available at https://github.com/ridgerchu/SpikeGPT.
翻訳日:2024-07-13 00:07:09 公開日:2024-07-11
# TAKT:全スライド画像分類のためのターゲット認識知識伝達

TAKT: Target-Aware Knowledge Transfer for Whole Slide Image Classification ( http://arxiv.org/abs/2303.05780v2 )

ライセンス: Link先を確認
Conghao Xiong, Yi Lin, Hao Chen, Hao Zheng, Dong Wei, Yefeng Zheng, Joseph J. Y. Sung, Irwin King, (参考訳) ソースドメインからターゲットドメインへの知識の転送は、高いアノテーションコストのためにデータセット内のサンプルの数に制限があるため、スライド画像の分類全体にとって極めて重要である。 しかし、データセット間のドメインシフトとタスクの相違は、効果的な知識伝達を妨げる。 本稿では,教師-学生パラダイムを取り入れたターゲット・アウェア・ナレッジ・トランスファーフレームワークを提案する。 本フレームワークにより,教師モデルは,教師モデルのトレーニングに,未学習のターゲットイメージを積極的に組み込むことで,ソースドメインとターゲットドメインから共通知識を学習することができる。 教師バッグの特徴は、その後、対象ドメイン上の生徒モデルのトレーニングを監督するために適応される。 教師モデルは、訓練中に対象の機能を取り入れているにもかかわらず、固有のドメインシフトとタスクの相違の下でそれらを見落としてしまう傾向にある。 これを軽減するために,最適な輸送問題を解くことで,特徴量と特徴量との伝達可能な遅延関係を確立するために,特徴量アライメントモジュールを導入する。 実験結果から, 知識伝達を用いたモデルは, ゼロから訓練した者よりも優れており, TCGA-RCC, TCGA-NSCLC, Camelyon16など, 各種データセット上での知識伝達手法の最先端性能を実現していることがわかった。

Transferring knowledge from a source domain to a target domain can be crucial for whole slide image classification, since the number of samples in a dataset is often limited due to high annotation costs. However, domain shift and task discrepancy between datasets can hinder effective knowledge transfer. In this paper, we propose a Target-Aware Knowledge Transfer framework, employing a teacher-student paradigm. Our framework enables the teacher model to learn common knowledge from the source and target domains by actively incorporating unlabelled target images into the training of the teacher model. The teacher bag features are subsequently adapted to supervise the training of the student model on the target domain. Despite incorporating the target features during training, the teacher model tends to overlook them under the inherent domain shift and task discrepancy. To alleviate this, we introduce a target-aware feature alignment module to establish a transferable latent relationship between the source and target features by solving the optimal transport problem. Experimental results show that models employing knowledge transfer outperform those trained from scratch, and our method achieves state-of-the-art performance among other knowledge transfer methods on various datasets, including TCGA-RCC, TCGA-NSCLC, and Camelyon16.
翻訳日:2024-07-13 00:07:09 公開日:2024-07-11
# 深部画像フィンガープリント:低予算合成画像検出とモデル線形解析を目指して

Deep Image Fingerprint: Towards Low Budget Synthetic Image Detection and Model Lineage Analysis ( http://arxiv.org/abs/2303.10762v4 )

ライセンス: Link先を確認
Sergey Sinitsa, Ohad Fried, (参考訳) 高品質な画像の生成は、広くアクセスしやすくなり、急速に進化するプロセスである。 その結果、誰でも実際のものと区別できない画像を生成することができる。 このことは、偽りの意図を持つ悪意のある使用を含む、幅広いアプリケーションにつながります。 生成画像の検出技術が進歩しているにもかかわらず、ロバストな検出手法はいまだに我々を逃がしている。 さらに、モデルパーソナライズ技術は既存の手法の検出能力に影響を与える可能性がある。 本研究では,畳み込みニューラルネットワーク(CNN)のアーキテクチャ特性を利用して,新しい検出手法を提案する。 本手法は、既知の生成モデルから画像を検出し、微調整された生成モデル間の関係を確立することができる。 本手法は,GAN(Generative Adversarial Networks)とDiffusion Modelsに依存する最近の大規模テキスト画像モデル(LTIM)の両方で生成した画像に対して検証を行った。 提案手法は,Stable DiffusionとMidJourneyが生成した画像に対して,同じ条件下で訓練された他者より優れ,最先端の事前訓練検出手法に匹敵する性能を実現している。

The generation of high-quality images has become widely accessible and is a rapidly evolving process. As a result, anyone can generate images that are indistinguishable from real ones. This leads to a wide range of applications, including malicious usage with deceptive intentions. Despite advances in detection techniques for generated images, a robust detection method still eludes us. Furthermore, model personalization techniques might affect the detection capabilities of existing methods. In this work, we utilize the architectural properties of convolutional neural networks (CNNs) to develop a new detection method. Our method can detect images from a known generative model and enable us to establish relationships between fine-tuned generative models. We tested the method on images produced by both Generative Adversarial Networks (GANs) and recent large text-to-image models (LTIMs) that rely on Diffusion Models. Our approach outperforms others trained under identical conditions and achieves comparable performance to state-of-the-art pre-trained detection methods on images generated by Stable Diffusion and MidJourney, with significantly fewer required train samples.
翻訳日:2024-07-13 00:07:09 公開日:2024-07-11
# Kirkwood--Dirac 準確率と強フレームに割り当てられた量子チャネルの解について

On Kirkwood--Dirac quasiprobabilities and unravelings of quantum channel assigned to a tight frame ( http://arxiv.org/abs/2304.14038v2 )

ライセンス: Link先を確認
Alexey E. Rastegin, (参考訳) 現代の研究で注目を集めている問題は、カークウッド-ディラック準確率(Kirkwood--Dirac quasiprobabilities)である。それらの使用例には、量子物理学の多くの疑問が含まれている。量子情報科学における複雑なタイトフレームの応用が最近証明された。この論文は、量子チャネルの展開の文脈に自然に準確率が現れることを示している。 したがって、R\'{e}nyi と Tsallis のエントロピーの観点からの新しい不確実性関係が得られる。 固有値の位置を特徴付けるための新しい不等式が導出される。 彼らはGer\v{s}gorin の定理の基底を推定する代替となる。 提示された不等式の効用は、次元2における対称的な情報的完備な測定で例示される。

An issue which has attracted increasing attention in contemporary researches are Kirkwood--Dirac quasiprobabilities. List of their use includes many questions of quantum physics. Applications of complex tight frames in quantum information science were recently demonstrated. It is shown in this paper that quasiprobabilities naturally appear in the context of unravelings of a quantum channel. Using vectors of the given tight frame to build principal Kraus operators generates quasiprobabilities with interesting properties. For an equiangular tight frame, we characterize the Hilbert--Schmidt and spectral norms of the matrix consisted of quasiprobabilities. Hence, novel uncertainty relations in terms of R\'{e}nyi and Tsallis entropies are obtained. New inequalities for characterizing the location of eigenvalues are derived. They give an alternative to estimating on the base of Ger\v{s}gorin's theorem. A utility of the presented inequalities is exemplified with symmetric informationally complete measurement in dimension two.
翻訳日:2024-07-13 00:07:09 公開日:2024-07-11
# アノテーションの課題:ウェアラブルセンサからのIn situおよびSelf-Recallアクティビティアノテーションに関する実証的研究

A Matter of Annotation: An Empirical Study on In Situ and Self-Recall Activity Annotations from Wearable Sensors ( http://arxiv.org/abs/2305.08752v3 )

ライセンス: Link先を確認
Alexander Hoelzemann, Kristof Van Laerhoven, (参考訳) ウェアラブルセンサーから人間の活動を検出する研究は、フィットネスコーチングから手作業プロセスの合理化に至るまで、多くの応用の恩恵を受け、非常に活発な分野である。 In-the-wildデータ収集に焦点をあてたユーザスタディにおいて,一般的な4つのアノテーション手法の評価と対比を行う実験的検討を行った。 実際の記録プロセス中に参加者がアノテートするユーザ主導のin situアノテーションと、各日の終わりに参加者が振り返ってアノテートするリコールメソッドの両方に対して、参加者は自身のアクティビティクラスと対応するラベルを選択できる柔軟性を持っていた。 本研究は、異なるラベル付け手法がアノテーションの品質や、データで訓練されたディープラーニング分類器の能力に直接影響を及ぼすことを示す。 In situ法はリコール法よりも精度の低いラベルを生成することに気づいた。 さらに,アクティビティダイアログと可視化ツールを組み合わせることで,参加者のアクティビティデータの検査とラベル付けを可能にした。 このようなツールの導入により、欠落したアノテーションを減らし、アノテーションの一貫性を高めることができ、深層学習モデルのF1スコアは最大8%向上した(82.1から90.4%のF1スコア)。 さらに,本研究と比較した手法の利点と欠点,導入可能なバイアス,人間の活動認識研究における使用結果,および可能な解決策について考察した。

Research into the detection of human activities from wearable sensors is a highly active field, benefiting numerous applications, from ambulatory monitoring of healthcare patients via fitness coaching to streamlining manual work processes. We present an empirical study that evaluates and contrasts four commonly employed annotation methods in user studies focused on in-the-wild data collection. For both the user-driven, in situ annotations, where participants annotate their activities during the actual recording process, and the recall methods, where participants retrospectively annotate their data at the end of each day, the participants had the flexibility to select their own set of activity classes and corresponding labels. Our study illustrates that different labeling methodologies directly impact the annotations' quality, as well as the capabilities of a deep learning classifier trained with the data. We noticed that in situ methods produce less but more precise labels than recall methods. Furthermore, we combined an activity diary with a visualization tool that enables the participant to inspect and label their activity data. Due to the introduction of such a tool were able to decrease missing annotations and increase the annotation consistency, and therefore the F1-Score of the deep learning model by up to 8% (ranging between 82.1 and 90.4% F1-Score). Furthermore, we discuss the advantages and disadvantages of the methods compared in our study, the biases they could introduce, and the consequences of their usage on human activity recognition studies as well as possible solutions.
翻訳日:2024-07-13 00:07:09 公開日:2024-07-11
# UniINR:イベント誘導型統一圧延シャッター補正、デブロアリング、補間

UniINR: Event-guided Unified Rolling Shutter Correction, Deblurring, and Interpolation ( http://arxiv.org/abs/2305.15078v2 )

ライセンス: Link先を確認
Yunfan LU, Guoqiang Liang, Yusheng Wang, Lin Wang, Hui Xiong, (参考訳) 高速カメラ移動中にローリングシャッター(RS)カメラで捉えたビデオフレームは、RS歪みとぼやけを同時に示している。 当然、RSブラーフレームから高フレームレートのグローバルシャッター(GS)シャープフレームを復元するには、RS補正、デブロア、フレーム補間を同時に考慮する必要がある。 単純な方法は、プロセス全体を別々のタスクに分解し、既存のメソッドをカスケードすることである。 イベントカメラには、高時間分解能などの多くの利点があり、この問題の可能性を秘めている。 そこで本研究では,RSぼけフレームとペアイベントから任意のフレームレートのシャープGSフレームを復元する,UniINRという新しい手法を提案する。 私たちのキーとなるアイデアは、空間的時間的暗黙的ニューラル表現(INR)を統一して、位置と時間座標を直接色値にマッピングし、インターロックの劣化に対処することです。 具体的には、空間時空間暗黙符号化(STE)を導入し、RSのぼやけた画像やイベントを空間時空間表現(STR)に変換する。 特定のシャープフレーム(GSまたはRS)を問合せするために、露光時間をSTRに埋め込んで、埋め込みされた特徴をピクセル単位でデコードしてシャープフレームを復元する。 提案手法は, パラメータ0.38Mしか持たない軽量モデルであり, 推論効率も高く, RSブラーフレームの31倍のフレーム補間で2.83ms/frameを実現している。 実験結果から,本手法は従来手法よりも有意に優れていたことが判明した。 コードはhttps://github.com/yunfanLu/UniINR.comで入手できる。

Video frames captured by rolling shutter (RS) cameras during fast camera movement frequently exhibit RS distortion and blur simultaneously. Naturally, recovering high-frame-rate global shutter (GS) sharp frames from an RS blur frame must simultaneously consider RS correction, deblur, and frame interpolation. A naive way is to decompose the whole process into separate tasks and cascade existing methods; however, this results in cumulative errors and noticeable artifacts. Event cameras enjoy many advantages, e.g., high temporal resolution, making them potential for our problem. To this end, we propose the first and novel approach, named UniINR, to recover arbitrary frame-rate sharp GS frames from an RS blur frame and paired events. Our key idea is unifying spatial-temporal implicit neural representation (INR) to directly map the position and time coordinates to color values to address the interlocking degradations. Specifically, we introduce spatial-temporal implicit encoding (STE) to convert an RS blur image and events into a spatial-temporal representation (STR). To query a specific sharp frame (GS or RS), we embed the exposure time into STR and decode the embedded features pixel-by-pixel to recover a sharp frame. Our method features a lightweight model with only 0.38M parameters, and it also enjoys high inference efficiency, achieving 2.83ms/frame in 31 times frame interpolation of an RS blur frame. Extensive experiments show that our method significantly outperforms prior methods. Code is available at https://github.com/yunfanLu/UniINR.
翻訳日:2024-07-13 00:07:09 公開日:2024-07-11
# SubspaceNet:DoA推定のためのディープラーニング支援サブスペース手法

SubspaceNet: Deep Learning-Aided Subspace Methods for DoA Estimation ( http://arxiv.org/abs/2306.02271v2 )

ライセンス: Link先を確認
Dor H. Shmuel, Julian P. Merkofer, Guy Revach, Ruud J. G. van Sloun, Nir Shlezinger, (参考訳) 到着方向推定(DoA)は配列処理の基本課題である。 一般的なDoA推定アルゴリズムのファミリーはサブスペース法であり、測定結果を異なる信号とノイズのサブスペースに分割して操作する。 MUSIC(Multiple Signal Classification)やRoot-MUSIC(Root-MUSIC)のような部分空間法は、狭帯域非コヒーレントなソースや完全に校正された配列など、いくつかの制限的な仮定に依存しており、それらが保持されない場合、その性能は大幅に低下する。 本研究では,データ駆動型DoA推定器であるSubspaceNetを提案する。 これは、専用のディープニューラルネットワークを利用して入力の実証的自己相関を学習し、Root-MUSIC法の一部としてトレーニングし、この特定のDoA推定器の固有の微分可能性を活用し、また、地上のトラス分解可能な自己相関行列を提供する必要をなくすことによって達成される。 トレーニングが完了すると、結果のSubspaceNetは、任意のサブスペースベースのDoA推定手法と組み合わせて適用可能な、普遍的なサロゲート共分散推定器として機能する。 SubspaceNetは、従来のサブスペース手法の解釈性と適合性を保ちながら、コヒーレントソース、広帯域信号、低いSNR、配列ミスマッチ、限られたスナップショットに対処する様々なDoA推定アルゴリズムを可能にする。

Direction of arrival (DoA) estimation is a fundamental task in array processing. A popular family of DoA estimation algorithms are subspace methods, which operate by dividing the measurements into distinct signal and noise subspaces. Subspace methods, such as Multiple Signal Classification (MUSIC) and Root-MUSIC, rely on several restrictive assumptions, including narrowband non-coherent sources and fully calibrated arrays, and their performance is considerably degraded when these do not hold. In this work we propose SubspaceNet; a data-driven DoA estimator which learns how to divide the observations into distinguishable subspaces. This is achieved by utilizing a dedicated deep neural network to learn the empirical autocorrelation of the input, by training it as part of the Root-MUSIC method, leveraging the inherent differentiability of this specific DoA estimator, while removing the need to provide a ground-truth decomposable autocorrelation matrix. Once trained, the resulting SubspaceNet serves as a universal surrogate covariance estimator that can be applied in combination with any subspace-based DoA estimation method, allowing its successful application in challenging setups. SubspaceNet is shown to enable various DoA estimation algorithms to cope with coherent sources, wideband signals, low SNR, array mismatches, and limited snapshots, while preserving the interpretability and the suitability of classic subspace methods.
翻訳日:2024-07-13 00:07:09 公開日:2024-07-11
# スケーラブルベクトルグラフ駆動画像理解のための大規模言語モデルの活用

Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding ( http://arxiv.org/abs/2306.06094v2 )

ライセンス: Link先を確認
Mu Cai, Zeyi Huang, Yuheng Li, Utkarsh Ojha, Haohan Wang, Yong Jae Lee, (参考訳) 大規模言語モデル(LLM)は、自然言語理解において大きな進歩を遂げた。 しかし、LLMが学習した巨大な意味表現を通じて、画像も理解できるようになるだろうか? この研究はこの問題を調査する。 LLMが画像を処理できるようにするため、スケーラブルベクトルグラフィックス(SVG)によって与えられる表現に変換する。 このXMLベースの画像のテキスト記述でLLMに何ができるかを研究するため、3つのコンピュータビジョンタスクでLLMをテストする。 (i)視覚的推論と質問応答 (二)分布シフトによる画像分類、少数ショット学習、及び (iii)視覚的プロンプトを用いて新しい画像を生成する。 LLMを視覚的理解能力と自然に関連付けるわけではないが、この結果から、LLMはこれらのタスクの多くにおいて適切な仕事をすることが多く、LLMが画像データを理解する能力について研究するための新たな道を開く可能性が示唆された。 私たちのコード、データ、モデルは、https://github.com/mu-cai/svg-llm.comで参照できます。

Large language models (LLMs) have made significant advancements in natural language understanding. However, through that enormous semantic representation that the LLM has learnt, is it somehow possible for it to understand images as well? This work investigates this question. To enable the LLM to process images, we convert them into a representation given by Scalable Vector Graphics (SVG). To study what the LLM can do with this XML-based textual description of images, we test the LLM on three broad computer vision tasks: (i) visual reasoning and question answering, (ii) image classification under distribution shift, few-shot learning, and (iii) generating new images using visual prompting. Even though we do not naturally associate LLMs with any visual understanding capabilities, our results indicate that the LLM can often do a decent job in many of these tasks, potentially opening new avenues for research into LLMs' ability to understand image data. Our code, data, and models can be found here https://github.com/mu-cai/svg-llm.
翻訳日:2024-07-13 00:07:09 公開日:2024-07-11
# コードレビューにおける情報拡散の上限

The Upper Bound of Information Diffusion in Code Review ( http://arxiv.org/abs/2306.08980v4 )

ライセンス: Link先を確認
Michael Dorner, Daniel Mendez, Krzysztof Wnuk, Ehsan Zabardast, Jacek Czerwonka, (参考訳) 背景: コードレビュー、つまり、人間のコード変更に関する議論は、参加者が情報を交換し、広めることを可能にするコミュニケーションネットワークを形成する。 定性的な研究によって報告されているが、コードレビューのコミュニケーションネットワークとしての能力に対する理解は依然として限られている。 目的:本記事では,コードレビューにおける情報拡散の上限である,コードレビューによる情報拡散の速さと程度を定量化することにより,コードレビューの能力を評価するための第一歩を報告します。 方法:本実験では,大規模(Microsoft),中規模(Spotify),小型コードレビューシステム(Trivago)を通信ネットワークとしてモデル化し,人工的な情報拡散をシミュレーションする。 次に、参加者間の最小のトポロジカル距離と時間距離を測定し、コードレビューでどれだけの速さで情報を拡散できるかを定量化します。 結果: 中小規模のコードレビューシステムにおける平均的なコードレビュー参加者は,ネットワークサイズやツーリングとは独立して4週間以内に,すべてのコードレビュー参加者の72%から85%に情報を広めることができる。 平均(中間)では、コードレビューの参加者2人の間で5ホップ未満、5日以内で情報を拡散することができる。 結論: コードレビューから生まれたコミュニケーションネットワークが十分にスケールし,情報を迅速かつ広範囲に拡散する証拠を見出した。 この研究は、コードレビューをコミュニケーションネットワークとして理解し、改善するための基礎を築いた。

Background: Code review, the discussion around a code change among humans, forms a communication network that enables its participants to exchange and spread information. Although reported by qualitative studies, our understanding of the capability of code review as a communication network is still limited. Objective: In this article, we report on a first step towards evaluating the capability of code review as a communication network by quantifying how fast and how far information can spread through code review: the upper bound of information diffusion in code review. Method: In an in-silico experiment, we simulate an artificial information diffusion within large (Microsoft), mid-sized (Spotify), and small code review systems (Trivago) modelled as communication networks. We then measure the minimal topological and temporal distances between the participants to quantify how far and how fast information can spread in code review. Results: An average code review participants in the small and mid-sized code review systems can spread information to between 72% and 85% of all code review participants within four weeks independently of network size and tooling; for the large code review systems, we found an absolute boundary of about 11000 reachable participants. On average (median), information can spread between two participants in code review in less than five hops and less than five days. Conclusion: We found evidence that the communication network emerging from code review scales well and spreads information fast and broadly, corroborating the findings of prior qualitative work. The study lays the foundation for understanding and improving code review as a communication network.
翻訳日:2024-07-13 00:07:09 公開日:2024-07-11
# 非エルミート系の実スペクトルに課されるヒルベルト空間の断片化

Hilbert space fragmentation imposed real spectrum of non-Hermitian systems ( http://arxiv.org/abs/2307.05679v3 )

ライセンス: Link先を確認
Somsubhra Ghosh, K. Sengupta, Indranil Paul, (参考訳) 我々は、強いヒルベルト空間断片化(HSF)によって課される制約が、ある種の大域対称性の存在とともに、非エルミート量子系の固有スペクトルの現実を保証できることを示し、そのような現実は、大域対称性だけでは保証できない。 相互作用する2つの有限鎖、すなわちフェルミオン型ネルソン=ハターノとスー=シュリーファー=ヘーガーモデルに対するこの洞察を示し、いずれも$\mathcal{PT}$対称性を持たない。 我々は,強いHSFと実スペクトルが大きな相互作用の限界における同じ動的制約の結果であることを示した。 また、局所等時相関関数は、固有スペクトルが実数である上の有限臨界相互作用強度において、多体例外点を検出することができることを示す。

We show that constraints imposed by strong Hilbert space fragmentation (HSF) along with the presence of certain global symmetries can ensure the reality of eigenspectra of non-Hermitian quantum systems; such a reality cannot be guaranteed by global symmetries alone. We demonstrate this insight for two interacting finite chains, namely the fermionic Nelson-Hatano and the Su-Schrieffer-Heeger models, none of which has a $\mathcal{PT}$ symmetry. We show analytically that strong HSF and real spectrum are both consequences of the same dynamical constraints in the limit of large interaction, provided the systems have sufficient global symmetries. We also show that a local equal-time correlation function can detect the many-body exceptional point at a finite critical interaction strength above which the eigenspectrum is real.
翻訳日:2024-07-13 00:07:09 公開日:2024-07-11
# 位相空間における量子場のエントロピー微分可能性

Entropic distinguishability of quantum fields in phase space ( http://arxiv.org/abs/2307.06128v2 )

ライセンス: Link先を確認
Sara Ditsch, Tobias Haas, (参考訳) 本稿では, 位相空間における量子場のエントロピー的不確かさを, 真空に対するエントロピー的微分可能性の観点から定量化する方法を提案する。 我々のアプローチは関数的フシミ$Q$分布と好ましく選択された相対エントロピーに基づいており、これは不確実性原理によって上から非自明に有界であることが示される。 結果として生じる相対エントロピーの不確実性関係は、コヒーレント状態の概念と同様に一般であり、したがってボゾン型およびフェルミオン型の量子場に対して成り立つ。 その単純な形式は多種多様な応用を可能にし、その中ではスカラー場に対する全粒子数とイジングモデルのフェルミオン的記述の観点から、任意の状態の不確実な余剰の完全な特徴づけを示す。 さらに、量子相転移における不確実性原理の役割を定量的に解釈する。

We present a general way of quantifying the entropic uncertainty of quantum field configurations in phase space in terms of entropic distinguishability with respect to the vacuum. Our approach is based on the functional Husimi $Q$-distribution and a suitably chosen relative entropy, which we show to be non-trivially bounded from above by the uncertainty principle. The resulting relative entropic uncertainty relation is as general as the concept of coherent states and thus holds for quantum fields of bosonic and fermionic type. Its simple form enables diverse applications, among which we present a complete characterization of the uncertainty surplus of arbitrary states in terms of the total particle number for a scalar field and the fermionic description of the Ising model. Moreover, we provide a quantitative interpretation of the role of the uncertainty principle for quantum phase transitions.
翻訳日:2024-07-12 23:57:21 公開日:2024-07-11
# SummaryMixing: 音声認識と理解のための自己認識に代わる線形複雑度

SummaryMixing: A Linear-Complexity Alternative to Self-Attention for Speech Recognition and Understanding ( http://arxiv.org/abs/2307.07421v3 )

ライセンス: Link先を確認
Titouan Parcollet, Rogier van Dalen, Shucong Zhang, Sourav Bhattacharya, (参考訳) 現代の音声処理システムは自己注意に依存している。 残念ながら、自己注意によるトークンの混合は、発話の長さにおいて2次時間を要するため、推論とトレーニングが遅くなり、メモリ消費が増加する。 ASRの自己注意のためのより安全な代替案が開発されているが、常に同じレベルの精度に達することは出来ていない。 そこで本稿では,自己注意に代わる新しい線形時間的代替法を提案する。 すべての時間ステップの平均オーバーベクターとの発話を要約する。 この単一の要約は、時間固有の情報と結合される。 この手法をSummaryMixingと呼ぶ。 最新のASRモデルに概要ミキシングを導入することで、トレーニングと推論を最大28%高速化し、メモリ使用量を半減させながら、従来の音声認識性能を維持または超えることが可能となる。

Modern speech processing systems rely on self-attention. Unfortunately, token mixing with self-attention takes quadratic time in the length of the speech utterance, slowing down inference and training and increasing memory consumption. Cheaper alternatives to self-attention for ASR have been developed, but they fail to consistently reach the same level of accuracy. This paper, therefore, proposes a novel linear-time alternative to self-attention. It summarises an utterance with the mean over vectors for all time steps. This single summary is then combined with time-specific information. We call this method "SummaryMixing". Introducing SummaryMixing in state-of-the-art ASR models makes it feasible to preserve or exceed previous speech recognition performance while making training and inference up to 28% faster and reducing memory use by half.
翻訳日:2024-07-12 23:57:21 公開日:2024-07-11
# ノイズデバイスにおけるQAOA性能:古典的最適化とアンザッツ深さの影響

QAOA Performance in Noisy Devices: The Effect of Classical Optimizers and Ansatz Depth ( http://arxiv.org/abs/2307.10149v2 )

ライセンス: Link先を確認
Aidan Pellow-Jarman, Shane McFarthing, Ilya Sinayskiy, Daniel K. Park, Anban Pillay, Francesco Petruccione, (参考訳) 量子近似最適化アルゴリズム (Quantum Approximate Optimization Algorithm, QAOA) は、組合せ最適化問題に対する近似解を提供する、Near-term Intermediate-Scale Quantum Computer (NISQ) のための変分量子アルゴリズムである。 QAOAは量子アンサッツと古典オプティマイザからなる量子古典ループを使用して、量子デバイス上で計算されるコスト関数を最小化する。 本稿では,古典的オプティマイザに対する現実的な雑音の影響について検討し,ノイズの存在下での量子近似最適化アルゴリズム(QAOA)の最適回路深さを決定する。 状態ベクトルシミュレーションにおける古典的最適化器の性能に有意な差はないが,Adam と AMSGrad の最適化器はショットノイズの存在下では最適であることがわかった。 真のノイズの条件下では、SPSAオプティマイザはADAMやAMSGradとともにトップパフォーマーとして登場します。 この研究は、QAOA回路の最大6層まで、約5キュービットの最小頂点被覆問題に対する解の質が上昇し、その後減少し始めたことも明らかにした。 この分析は、QAOAの精度を高めるために、QAOAの層数を増やすことは、ノイズの多いデバイスではうまく機能しないことを示している。

The Quantum Approximate Optimization Algorithm (QAOA) is a variational quantum algorithm for Near-term Intermediate-Scale Quantum computers (NISQ) providing approximate solutions for combinatorial optimiz\-ation problems. The QAOA utilizes a quantum-classical loop, consisting of a quantum ansatz and a classical optimizer, to minimize some cost function, computed on the quantum device. This paper presents an investigation into the impact of realistic noise on the classical optimizer and the determination of optimal circuit depth for the Quantum Approximate Optimization Algorithm (QAOA) in the presence of noise. We find that, while there is no significant difference in the performance of classical optimizers in a state vector simulation, the Adam and AMSGrad optimizers perform best in the presence of shot noise. Under the conditions of real noise, the SPSA optimizer, along with ADAM and AMSGrad, emerge as the top performers. The study also reveals that the quality of solutions to some 5 qubit minimum vertex cover problems increases for up to around six layers in the QAOA circuit, after which it begins to decline. This analysis shows that increasing the number of layers in the QAOA in an attempt to increase accuracy may not work well in a noisy device.
翻訳日:2024-07-12 23:57:21 公開日:2024-07-11
# 量子状態の最大固有乱数性

Maximal intrinsic randomness of a quantum state ( http://arxiv.org/abs/2307.15708v2 )

ライセンス: Link先を確認
Shuyang Meng, Fionnuala Curran, Gabriel Senno, Victoria J. Wright, Máté Farkas, Valerio Scarani, Antonio Acín, (参考訳) 量子論の最も反直観的な側面の1つは、物理世界において「本質的な」ランダム性が存在するという主張である。 量子情報科学は、過去10年間に固有の、または秘密の量子ランダム性の研究で大きく進歩してきた。 デバイス非依存および半デバイス非依存のバウンダリに重点を置いて、最も基本的な質問の1つが注意を逸脱している。 この問題は、条件最小エントロピー、条件フォン・ノイマンエントロピー、条件最大エントロピーの3つの異なるランダム性定量化器に答える。 まず,盗聴者の最大推定確率を最小化する射影測度を求めるmin-max問題を解く。 その結果、条件付きmin-entropy $H^*_{\textrm{min}}=-\log_2 P_{\textrm{guess}}^{*}(\rho)$ with $P_{\textrm{guess}}^{*}(\rho)=\frac{1}{d}(\textrm{tr} \sqrt{\rho})^2$が適切な射影測定を行うことで、条件付きmin-entropy $H^*_{\textrm{min}}=-\log_2 P_{\textrm{guess}}^{*}(\rho)$を保証できる。 条件付きフォン・ノイマンエントロピーの場合、最大値は$H^{*}= \log_{2}d-S(\rho)$, with $S(\rho)$, the von Neumann entropy of $\rho$, and the conditional max-entropy for the maximal value $H^{*}_\textrm{max}=\log_{2}d + \log_{2}\lambda_{\textrm{max}}(\rho)$, where $\lambda_{\textrm{max}}(\rho)$は$\rho$の最大の固有値である。 H^{*}_{\textrm{min}}$, $H^{*}$ および $H^{*}_\textrm{max}$ の最適値は、$\rho$ の固有基底に偏らない任意の基底で測定することで達成される。

One of the most counterintuitive aspects of quantum theory is its claim that there is 'intrinsic' randomness in the physical world. Quantum information science has greatly progressed in the study of intrinsic, or secret, quantum randomness in the past decade. With much emphasis on device-independent and semi-device-independent bounds, one of the most basic questions has escaped attention: how much intrinsic randomness can be extracted from a given state $\rho$, and what measurements achieve this bound? We answer this question for three different randomness quantifiers: the conditional min-entropy, the conditional von Neumann entropy and the conditional max-entropy. For the first, we solve the min-max problem of finding the projective measurement that minimises the maximal guessing probability of an eavesdropper. The result is that one can guarantee an amount of conditional min-entropy $H^*_{\textrm{min}}=-\log_2 P_{\textrm{guess}}^{*}(\rho)$ with $P_{\textrm{guess}}^{*}(\rho)=\frac{1}{d}(\textrm{tr} \sqrt{\rho})^2$ by performing suitable projective measurements. For the conditional von Neumann entropy, we find that the maximal value is $H^{*}= \log_{2}d-S(\rho)$, with $S(\rho)$ the von Neumann entropy of $\rho$, while for the conditional max-entropy, we find the maximal value $H^{*}_\textrm{max}=\log_{2}d + \log_{2}\lambda_{\textrm{max}}(\rho)$, where $\lambda_{\textrm{max}}(\rho)$ is the largest eigenvalue of $\rho$. Optimal values for $H^{*}_{\textrm{min}}$, $H^{*}$ and $H^{*}_\textrm{max}$ are achieved by measuring in any basis that is unbiased to the eigenbasis of $\rho$, as well as by other, less intuitive, measurements.
翻訳日:2024-07-12 23:57:21 公開日:2024-07-11
# 知識グラフ補完のための意味豊かな埋め込みを目指して

Towards Semantically Enriched Embeddings for Knowledge Graph Completion ( http://arxiv.org/abs/2308.00081v4 )

ライセンス: Link先を確認
Mehwish Alam, Frank van Harmelen, Maribel Acosta, (参考訳) 埋め込みベースの知識グラフ(KG) 完成度はここ数年で大きな注目を集めている。 現在のアルゴリズムの多くは、KGを多方向ラベル付きグラフと見なしており、スキーマ情報に基づくセマンティクスをキャプチャする能力がない。 別の開発では、人工知能の分野に革命をもたらしたLarge Language Models(LLMs)内で、膨大な情報が収集されている。 KGはこれらのLCMの恩恵を受けることができる。 本稿では,KG埋め込み生成のバリエーションに基づいて,既存のKG完了アルゴリズムについて述べる。 まず、帰納的および帰納的リンク予測やエンティティタイプ予測アルゴリズムなど、さまざまなKG補完アルゴリズムについて議論する。 その後、KG、LLM内の型情報を利用したアルゴリズムに移行し、最後に、異なる記述論理公理で表されるセマンティクスをキャプチャするアルゴリズムに移行する。 本稿は、コミュニティにおける現在の作業状況について批判的な考察を行い、今後の方向性について推奨する。

Embedding based Knowledge Graph (KG) Completion has gained much attention over the past few years. Most of the current algorithms consider a KG as a multidirectional labeled graph and lack the ability to capture the semantics underlying the schematic information. In a separate development, a vast amount of information has been captured within the Large Language Models (LLMs) which has revolutionized the field of Artificial Intelligence. KGs could benefit from these LLMs and vice versa. This vision paper discusses the existing algorithms for KG completion based on the variations for generating KG embeddings. It starts with discussing various KG completion algorithms such as transductive and inductive link prediction and entity type prediction algorithms. It then moves on to the algorithms utilizing type information within the KGs, LLMs, and finally to algorithms capturing the semantics represented in different description logic axioms. We conclude the paper with a critical reflection on the current state of work in the community and give recommendations for future directions.
翻訳日:2024-07-12 23:57:21 公開日:2024-07-11
# 原子-原子相関による量子多体熱機械

Quantum many-body thermal machines enabled by atom-atom correlations ( http://arxiv.org/abs/2308.05266v3 )

ライセンス: Link先を確認
R. S. Watson, K. V. Kheruntsyan, (参考訳) グラウバーの2階相関関数を特徴とする粒子-粒子相関は、電波および光学天文学、量子および原子光学、粒子物理学、凝縮物質物理学、量子多体理論における様々な現象の理解において重要な役割を果たす。 しかし、そのような相関関係と量子熱力学の関係はいまだに解明されていない。 本稿では,超低温原子ガス中の2次原子-原子相関により直接動作可能な量子多体熱機械のクラスを提案し,検討する。 より具体的には、突然の相互作用待ちオットーサイクルで動作し、反発的に相互作用するボソンの1次元リーブ・ライニガーガスを作動流体として利用する量子熱機械について研究する。 このような気体中の原子-原子相関は古典的な理想気体と異なり、粒子間相互作用、量子統計学、熱ゆらぎの相互作用の結果である。 熱機関, 冷凍機, 熱加速器, ヒーターなど, これらの熱機械を意図した状態に作動させることは, 原子と原子の相関がなければ不可能であることを示す。 この結果は、量子コヒーレンス、相関、絡み合いといったユニークな量子資源を活用する、概念的に新しい量子熱力学デバイスの設計における一歩となる。

Particle-particle correlations, characterized by Glauber's second-order correlation function,play an important role in the understanding of various phenomena in radio and optical astronomy, quantum and atom optics, particle physics, condensed matter physics, and quantum many-body theory. However, the relevance of such correlations to quantum thermodynamics has so far remained illusive. Here, we propose and investigate a class of quantum many-body thermal machines whose operation is directly enabled by second-order atom-atom correlations in an ultracold atomic gas. More specifically, we study quantum thermal machines that operate in a sudden interaction-quench Otto cycle and utilize a one-dimensional Lieb-Liniger gas of repulsively interacting bosons as the working fluid. The atom-atom correlations in such a gas are different to those of a classical ideal gas, and are a result of the interplay between interparticle interactions, quantum statistics, and thermal fluctuations. We show that operating these thermal machines in the intended regimes, such as a heat engine, refrigerator, thermal accelerator, or heater, would be impossible without such atom-atom correlations. Our results constitute a step forward in the design of conceptually new quantum thermodynamic devices which take advantage of uniquely quantum resources such as quantum coherence, correlations, and entanglement.
翻訳日:2024-07-12 23:57:21 公開日:2024-07-11
# DebSDF: ニューラル・インハウス・シーン・コンストラクションの詳細と課題

DebSDF: Delving into the Details and Bias of Neural Indoor Scene Reconstruction ( http://arxiv.org/abs/2308.15536v3 )

ライセンス: Link先を確認
Yuting Xiao, Jingwei Xu, Zehao Yu, Shenghua Gao, (参考訳) 近年,そのシンプルさと最先端性能から,多面的表面再構成の強力な表現として,ニューラル暗黙表面が出現している。 しかし,マルチビュー画像から室内のスムーズで詳細な表面を再構築することは,ユニークな課題である。 室内のシーンは、通常、大きなテクスチャのない領域を含んでおり、暗黙の表面を最適化するために測光損失を信頼できない。 それまでの作業は、屋内のシーンの再構築を改善するために、単眼の幾何学的手法を用いていた。 しかし、単分子前駆体は、ドメインギャップと異なる視点から独立して導かれるとき固有の矛盾により、細い構造領域に重大な誤りを含むことが多い。 本稿では,これらの課題に対処するために,単分子前駆体における不確実性の利用とSDFに基づくボリュームレンダリングのバイアスに着目した「textbf{DebSDF}」を提案する。 本稿では,より大規模な不確実性とモノラルな先行誤差を関連付ける不確実性モデリング手法を提案する。 その後、バイアスを防ぐために、高い不確実性事前を最適化から除外する。 この不確実性尺度はまた、重要誘導光サンプリングと適応的滑らか性正規化を通知し、微細構造の学習を促進する。 さらに、ビュー方向とSDF正規度の間の曲率と角度を考慮した密度変換にバイアス対応符号距離関数を導入し、より詳細な情報を再構築する。 提案手法は,いくつかの挑戦的データセットに対する広範囲な実験により検証され,室内の薄層構造を再構築する際の質的,定量的な結果が向上し,従来よりも優れた結果が得られた。

In recent years, the neural implicit surface has emerged as a powerful representation for multi-view surface reconstruction due to its simplicity and state-of-the-art performance. However, reconstructing smooth and detailed surfaces in indoor scenes from multi-view images presents unique challenges. Indoor scenes typically contain large texture-less regions, making the photometric loss unreliable for optimizing the implicit surface. Previous work utilizes monocular geometry priors to improve the reconstruction in indoor scenes. However, monocular priors often contain substantial errors in thin structure regions due to domain gaps and the inherent inconsistencies when derived independently from different views. This paper presents \textbf{DebSDF} to address these challenges, focusing on the utilization of uncertainty in monocular priors and the bias in SDF-based volume rendering. We propose an uncertainty modeling technique that associates larger uncertainties with larger errors in the monocular priors. High-uncertainty priors are then excluded from optimization to prevent bias. This uncertainty measure also informs an importance-guided ray sampling and adaptive smoothness regularization, enhancing the learning of fine structures. We further introduce a bias-aware signed distance function to density transformation that takes into account the curvature and the angle between the view direction and the SDF normals to reconstruct fine details better. Our approach has been validated through extensive experiments on several challenging datasets, demonstrating improved qualitative and quantitative results in reconstructing thin structures in indoor scenes, thereby outperforming previous work.
翻訳日:2024-07-12 23:57:21 公開日:2024-07-11
# 自動運転知覚における深層学習の安全性に関する考察

Deep Learning Safety Concerns in Automated Driving Perception ( http://arxiv.org/abs/2309.03774v2 )

ライセンス: Link先を確認
Stephanie Abrecht, Alexander Hirsch, Shervin Raafatnia, Matthias Woehrle, (参考訳) 近年のディープラーニング分野の進歩と認識のためのディープニューラルネットワーク(DNN)の性能向上により、自動走行(AD)システムへの需要が高まっている。 このようなシステムの安全性は極めて重要であるため、DNNのユニークな特性を考慮する必要がある。 系統的かつ包括的アプローチでDNNに基づく認識コンポーネントを用いたADシステムの安全性を実現するために,いわゆる安全懸念が適切な構造要素として導入されている。 一方、安全上の懸念という概念は、ISO 21448(SOTIF)のようなADシステムの安全性に関する既存の標準によく適合している。 一方、すでにいくつかの学術出版物や、ISO PAS 8800のようなAI安全性に関する今後の標準に触発されている。 安全に関する概念は以前から紹介されてきたが,本論文では,様々な分野の専門家や安全専門家からのフィードバックを活用して,その拡張と改良を行っている。 特に,クロスファンクショナルなチームが共同で関心事に対処できるようにすると同時に,理解を深めるための新たな分類を導入する。

Recent advances in the field of deep learning and impressive performance of deep neural networks (DNNs) for perception have resulted in an increased demand for their use in automated driving (AD) systems. The safety of such systems is of utmost importance and thus requires to consider the unique properties of DNNs. In order to achieve safety of AD systems with DNN-based perception components in a systematic and comprehensive approach, so-called safety concerns have been introduced as a suitable structuring element. On the one hand, the concept of safety concerns is -- by design -- well aligned to existing standards relevant for safety of AD systems such as ISO 21448 (SOTIF). On the other hand, it has already inspired several academic publications and upcoming standards on AI safety such as ISO PAS 8800. While the concept of safety concerns has been previously introduced, this paper extends and refines it, leveraging feedback from various domain and safety experts in the field. In particular, this paper introduces an additional categorization for a better understanding as well as enabling cross-functional teams to jointly address the concerns.
翻訳日:2024-07-12 23:57:21 公開日:2024-07-11
# HITA: ヘルスケアIoTアプリケーションのシステムレベルのテストのためのアーキテクチャ

HITA: An Architecture for System-level Testing of Healthcare IoT Applications ( http://arxiv.org/abs/2309.04223v3 )

ライセンス: Link先を確認
Hassan Sartaj, Shaukat Ali, Tao Yue, Julie Marie Gjøby, (参考訳) 医療用IoT(Internet of Things)アプリケーションのシステムレベルのテストには、統合医療機器とサードパーティアプリケーションによるテストインフラストラクチャの作成が必要である。 このようなテストインフラストラクチャを構築する上で重要な課題は、異なるベンダーの新たな医療機器と、異なるアーキテクチャに従う異なるサードパーティ組織が提供する新しいサービスを追加して、医療用IoTアプリケーションが継続的に進化することである。 さらに、さまざまな種類の医療機器でテストインフラを構築することは、時間を費やし、経済的に高価であり、事実上不可能である。 Oslo Cityのヘルスケア部門は、さまざまな医療用IoTアプリケーションで作業しながら、これらの課題に直面した。 これらの課題に対処するために,医療用IoTアプリケーション用に設計された実世界のテストインフラストラクチャソフトウェアアーキテクチャ(HITA)を提案する。 モデルベースおよび機械学習(ML)アプローチを用いて実装されたHITAのディジタルツイン(DT)生成コンポーネントをDTの忠実度、スケーラビリティ、時間コストの観点から評価した。 その結果,モデルベースアプローチとMLアプローチによるDTの忠実度はそれぞれ94%,95%に達した。 100個のDTを同時に操作した結果、DT生成コンポーネントはスケーラブルであり、MLベースのDTはよりコストがかかることが示された。

System-level testing of healthcare Internet of Things (IoT) applications requires creating a test infrastructure with integrated medical devices and third-party applications. A significant challenge in creating such test infrastructure is that healthcare IoT applications evolve continuously with the addition of new medical devices from different vendors and new services offered by different third-party organizations following different architectures. Moreover, creating test infrastructure with a large number of different types of medical devices is time-consuming, financially expensive, and practically infeasible. Oslo City's healthcare department faced these challenges while working with various healthcare IoT applications. To address these challenges, this paper presents a real-world test infrastructure software architecture (HITA) designed for healthcare IoT applications. We evaluated HITA's digital twin (DT) generation component implemented using model-based and machine learning (ML) approaches in terms of DT fidelity, scalability, and time cost of generating DTs. Results show that the fidelity of DTs created using model-based and ML approaches reach 94% and 95%, respectively. Results from operating 100 DTs concurrently show that the DT generation component is scalable and ML-based DTs have a higher time cost.
翻訳日:2024-07-12 23:57:21 公開日:2024-07-11
# 多言語基盤モデルのためのSeaEval:言語横断的アライメントから文化的推論へ

SeaEval for Multilingual Foundation Models: From Cross-Lingual Alignment to Cultural Reasoning ( http://arxiv.org/abs/2309.04766v5 )

ライセンス: Link先を確認
Bin Wang, Zhengyuan Liu, Xin Huang, Fangkai Jiao, Yang Ding, AiTi Aw, Nancy F. Chen, (参考訳) マルチ言語基盤モデルのベンチマークであるSeaEvalを紹介する。 これらのモデルがどのように自然言語を理解・理性的に理解しているかを特徴づけるだけでなく、文化の実践やニュアンス、価値観をいかによく理解しているかも調べる。 標準的な精度指標とともに,意味論と多言語性の次元における基礎モデルの脆さについて検討する。 我々の分析は、オープンソースのモデルとクローズドモデルの両方にまたがっており、古典的なNLPタスク、推論、文化的理解に経験的な結果をもたらす。 主要な知見は,(1)言い換え指示が与えられた場合,ほとんどのモデルは様々な行動を示す。 2) 多くのモデルは露出バイアス(例えば位置バイアス,多数ラベルバイアス)に悩まされている。 (3) 事実,科学的,常識的知識に根ざした質問に対しては,意味論的に等価な多言語クエリに対して一貫した応答が期待できる。 しかし、ほとんどのモデルは、これらのクエリで驚くほど不整合のパフォーマンスを示しています。 (4)多言語学習モデルでは「バランスの取れた多言語」能力は得られていない。 我々の取り組みは、より一般化可能な意味表現と拡張された多言語文脈化の必要性を浮き彫りにしている。 SeaEvalは、多言語および多文化シナリオに対するより徹底的な調査と評価のための発射台として機能する。

We present SeaEval, a benchmark for multilingual foundation models. In addition to characterizing how these models understand and reason with natural language, we also investigate how well they comprehend cultural practices, nuances, and values. Alongside standard accuracy metrics, we investigate the brittleness of foundation models in the dimensions of semantics and multilinguality. Our analyses span both open-sourced and closed models, leading to empirical results across classic NLP tasks, reasoning, and cultural comprehension. Key findings indicate (1) Most models exhibit varied behavior when given paraphrased instructions. (2) Many models still suffer from exposure bias (e.g., positional bias, majority label bias). (3) For questions rooted in factual, scientific, and commonsense knowledge, consistent responses are expected across multilingual queries that are semantically equivalent. Yet, most models surprisingly demonstrate inconsistent performance on these queries. (4) Multilingually-trained models have not attained "balanced multilingual" capabilities. Our endeavors underscore the need for more generalizable semantic representations and enhanced multilingual contextualization. SeaEval can serve as a launchpad for more thorough investigations and evaluations for multilingual and multicultural scenarios.
翻訳日:2024-07-12 23:57:21 公開日:2024-07-11
# 加速共振器探索による暗黒物質の抑制

Constraining Ultralight Dark Matter through an Accelerated Resonant Search ( http://arxiv.org/abs/2309.16600v2 )

ライセンス: Link先を確認
Zitong Xu, Xiaolin Ma, Kai Wei, Yuxuan He, Xing Heng, Xiaofei Huang, Tengyu Ai, Jian Liao, Wei Ji, Jia Liu, Xiao-Ping Wang, Dmitry Budker, (参考訳) 超軽い暗黒物質を検出する実験は、通常共鳴周波数に一致する暗黒物質質量に敏感な共鳴効果に依存する。 本研究では、核磁気共鳴(NMR)モードで動作する磁気センサを用いて、超軽量のアクシオンダークマターの核子カップリングについて検討した。 我々のアプローチは、貴ガススピンの中で最低の核磁気モーメントを特徴とする、$^{21}$Neスピンベースのセンサーの使用である。 この構成により、およそ1.5$\times 10^{-23}\,\rm{eV/Hz^{1/2}}$.73 fT/Hz$^{1/2}$の超高感度を約5Hzで達成できる。 解析の結果,特定の条件下では,共振幅よりもかなり大きいステップで周波数をスキャンすることは有益であることが判明した。 解析結果は実験データと一致しており、スキャン戦略は他の共鳴探索にも適用できる可能性がある。 さらに, 中性子と陽子に結合する4.5~15.5Hzのコンプトン周波数範囲において, アクチオン様粒子(ALP)に強い制約を課し, 先行処理を複数倍に改善する。 約4.6~6.6Hz、約7.5Hzの範囲内では、中性子星冷却による天体物理学的限界を超えている。 そこで,超軽量ダークマターの高速共振探索を行い,競争感度を維持しつつ,走査工程の約30倍の高速化を実現した。

Experiments aimed at detecting ultralight dark matter typically rely on resonant effects, which are sensitive to the dark matter mass that matches the resonance frequency. In this study, we investigate the nucleon couplings of ultralight axion dark matter using a magnetometer operating in a nuclear magnetic resonance (NMR) mode. Our approach involves the use of a $^{21}$Ne spin-based sensor, which features the lowest nuclear magnetic moment among noble-gas spins. This configuration allows us to achieve an ultrahigh sensitivity of 0.73 fT/Hz$^{1/2}$ at around 5 Hz, corresponding to energy resolution of approximately 1.5$\times 10^{-23}\,\rm{eV/Hz^{1/2}}$. Our analysis reveals that under certain conditions it is beneficial to scan the frequency with steps significantly larger than the resonance width. The analytical results are in agreement with experimental data and the scan strategy is potentially applicable to other resonant searches. Further, our study establishes stringent constraints on axion-like particles (ALP) in the 4.5--15.5 Hz Compton-frequency range coupling to neutrons and protons, improving on prior work by several-fold. Within a band around 4.6--6.6 Hz and around 7.5 Hz, our laboratory findings surpass astrophysical limits derived from neutron-star cooling. Hence, we demonstrate an accelerated resonance search for ultralight dark matter, achieving an approximately 30-fold increase in scanning step while maintaining competitive sensitivity.
翻訳日:2024-07-12 23:57:21 公開日:2024-07-11
# AdaDiff: ステップワイズ適応計算による拡散モデルの高速化

AdaDiff: Accelerating Diffusion Models through Step-Wise Adaptive Computation ( http://arxiv.org/abs/2309.17074v2 )

ライセンス: Link先を確認
Shengkun Tang, Yaqing Wang, Caiwen Ding, Yi Liang, Yao Li, Dongkuan Xu, (参考訳) 拡散モデルは多彩で高忠実な画像を生成する上で大きな成功を収めるが、特にリアルタイムシナリオにおいて広く応用されることは、その本質的に遅い生成速度によって妨げられる。 遅い生成は、マルチステップネットワーク推論の必要性から生じる。 いくつかの特定の予測は、各サンプリングイテレーションにおけるモデルの完全な計算の恩恵を受けるが、全てのイテレーションが同じ量の計算を必要とするわけではないため、潜在的に非効率な計算につながる。 単段階生成問題に対処する典型的な適応型計算問題とは異なり、多段階生成を伴う拡散プロセスは、各ステップの重要度を最終的な画像出力に対して継続的に評価することに基づいて、その計算資源割り当てを動的に調整する必要がある。 本研究では,各サンプリングステップで動的に計算資源を割り当て,拡散モデルの生成効率を向上させる適応フレームワークであるAdaDiffを提案する。 画像品質に対する計算作業の変化の影響を評価するため,時間認識不確実性推定モジュール(UEM)を提案する。 各中間層で統合され、UEMは予測の不確実性を評価する。 この不確実性測定は、推論プロセスの終了を決定する指標となる。 さらに、フルモデルと適応モデル間の性能ギャップを埋めることを目的とした不確実性認識層ワイドロスを導入する。

Diffusion models achieve great success in generating diverse and high-fidelity images, yet their widespread application, especially in real-time scenarios, is hampered by their inherently slow generation speed. The slow generation stems from the necessity of multi-step network inference. While some certain predictions benefit from the full computation of the model in each sampling iteration, not every iteration requires the same amount of computation, potentially leading to inefficient computation. Unlike typical adaptive computation challenges that deal with single-step generation problems, diffusion processes with a multi-step generation need to dynamically adjust their computational resource allocation based on the ongoing assessment of each step's importance to the final image output, presenting a unique set of challenges. In this work, we propose AdaDiff, an adaptive framework that dynamically allocates computation resources in each sampling step to improve the generation efficiency of diffusion models. To assess the effects of changes in computational effort on image quality, we present a timestep-aware uncertainty estimation module (UEM). Integrated at each intermediate layer, the UEM evaluates the predictive uncertainty. This uncertainty measurement serves as an indicator for determining whether to terminate the inference process. Additionally, we introduce an uncertainty-aware layer-wise loss aimed at bridging the performance gap between full models and their adaptive counterparts.
翻訳日:2024-07-12 23:57:21 公開日:2024-07-11
# CLIPにおける伝達可能な表現学習とゼロショット変換の理解

Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP ( http://arxiv.org/abs/2310.00927v2 )

ライセンス: Link先を確認
Zixiang Chen, Yihe Deng, Yuanzhi Li, Quanquan Gu, (参考訳) マルチモーダル学習は、異なるデータソース(例えば、テキストや画像)の情報を活用して、モデルの性能を向上させる能力によって、ますます人気が高まっている。 近年、CLIPは、画像とテキスト表現を学習するために、視覚言語によるコントラスト事前訓練を利用する効果的なアプローチとして現れ、ゼロショット学習やテキスト誘導自然画像生成において顕著な性能を示す。 CLIPの実践的成功にもかかわらず、理論的な理解はいまだに解明されていない。 本稿では,CLIPの基盤となる伝達可能表現学習を正式に研究し,異なるモダリティの特徴の整合性を実証する。 また、下流タスクにおけるゼロショット転送性能についても分析する。 そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。

Multi-modal learning has become increasingly popular due to its ability to leverage information from different data sources (e.g., text and images) to improve the model performance. Recently, CLIP has emerged as an effective approach that employs vision-language contrastive pretraining to learn joint image and text representations and exhibits remarkable performance in zero-shot learning and text-guided natural image generation. Despite the huge practical success of CLIP, its theoretical understanding remains elusive. In this paper, we formally study transferrable representation learning underlying CLIP and demonstrate how features from different modalities get aligned. We also analyze its zero-shot transfer performance on the downstream tasks. Inspired by our analysis, we propose a new CLIP-type approach, which achieves better performance than CLIP and other state-of-the-art methods on benchmark datasets.
翻訳日:2024-07-12 23:47:33 公開日:2024-07-11
# ZeroI2V:画像からビデオへの事前学習トランスフォーマーのゼロコスト適応

ZeroI2V: Zero-Cost Adaptation of Pre-trained Transformers from Image to Video ( http://arxiv.org/abs/2310.01324v2 )

ライセンス: Link先を確認
Xinhao Li, Yuhan Zhu, Limin Wang, (参考訳) ビデオ領域に画像モデルを適用することは、ビデオ認識タスクを解くための効率的なパラダイムとして現れてきた。 画像モデルの膨大なパラメータと効果的な転送性のため、完全な微調整の実行は効率が悪く、さらに不要である。 このように、近年の研究はパラメータ効率のよい画像から映像への適応に焦点を移している。 しかし、これらの適応戦略は必然的に、ビデオの領域ギャップと時間的モデリングを扱うために余分な計算コストをもたらす。 本稿では,画像変換器をビデオ認識タスクに転送する新たな適応パラダイム(ZeroI2V)を提案する。 この目的を達成するために、我々は2つのコア設計を提示した。 まず,映像のダイナミックスを捉え,映像から映像への適応の困難さを軽減するために,自己注意の柔軟性を活用し,時空間二重注意(STDHA)を導入する。 このアプローチは、画像変換器に時間的モデリング機能を持たせ、余分なパラメータや計算をゼロにする。 第2に、画像とビデオ間の領域ギャップを取り扱うために、軽量に密配置された線形アダプタを用いて凍結画像モデルを完全にビデオ認識に転送する線形適応戦略を提案する。 カスタマイズされた線形設計のおかげで、全ての新しいアダプタはトレーニング後の構造的パラメータ化によって元のモジュールと簡単にマージすることができ、推論時に余分なコストをゼロにすることができた。 ZeroI2Vは、優れたパラメータと推論効率を享受しながら、従来の最先端の手法にマッチしたり、性能を上回ったりできる。

Adapting image models to the video domain has emerged as an efficient paradigm for solving video recognition tasks. Due to the huge number of parameters and effective transferability of image models, performing full fine-tuning is less efficient and even unnecessary. Thus, recent research is shifting its focus toward parameter-efficient image-to-video adaptation. However, these adaptation strategies inevitably introduce extra computational costs to deal with the domain gap and temporal modeling in videos. In this paper, we present a new adaptation paradigm (ZeroI2V) to transfer the image transformers to video recognition tasks (i.e., introduce zero extra cost to the original models during inference). To achieve this goal, we present two core designs. First, to capture the dynamics in videos and reduce the difficulty of image-to-video adaptation, we exploit the flexibility of self-attention and introduce spatial-temporal dual-headed attention (STDHA). This approach efficiently endows the image transformers with temporal modeling capability at zero extra parameters and computation. Second, to handle the domain gap between images and videos, we propose a linear adaption strategy that utilizes lightweight densely placed linear adapters to fully transfer the frozen image models to video recognition. Thanks to the customized linear design, all newly added adapters could be easily merged with the original modules through structural reparameterization after training, enabling zero extra cost during inference. Extensive experiments on representative fully-supervised and few-shot video recognition benchmarks showcase that ZeroI2V can match or even outperform previous state-of-the-art methods while enjoying superior parameter and inference efficiency.
翻訳日:2024-07-12 23:47:33 公開日:2024-07-11
# チャンキング: 継続的学習は単なる分散シフトではない

Chunking: Continual Learning is not just about Distribution Shift ( http://arxiv.org/abs/2310.02206v2 )

ライセンス: Link先を確認
Thomas L. Lee, Amos Storkey, (参考訳) 連続学習(CL)の研究は、これまでのところ、データ分散の変化に起因する問題に主に焦点を合わせてきた。 しかし、CLは2つのサブプロブレムに分解することができる。 (a)データ配信のシフト、および b) データがチャンクに分割されているという事実を扱うため、任意の時点でデータの一部のみをトレーニングすることができる。 本稿では、後者のサブプロブレム、すなわちデータのチャンキングについて考察する。 実験では,オフライン学習によるパフォーマンス低下の約半数を,チャンキングがCLの重要な部分であることを示しています。 さらに,現在のCLアルゴリズムはチャンキングサブプロブレムに対処せず,データ分布に変化がない場合にのみ,通常のSGDトレーニングを行う。 したがって,チャンキングは重要かつ現在未対応のサブプロブレムであり,CLメソッドに対処するまでは性能が向上することを示す。 さらに、同じ分散したデータチャンク上で学習が生じるとパフォーマンスが低下する理由を分析した結果、分散シフトによる問題としてしばしば見られる、忘れることが依然として発生し、重大な問題であることが判明した。 また,チャンキングサブプロブレムの性能は向上し,この性能は分布シフトがある全CL設定に遷移することを示す。 したがって、チャンキングの作業は一般にCLを前進させるのに役立つと論じる。

Work on continual learning (CL) has thus far largely focused on the problems arising from shifts in the data distribution. However, CL can be decomposed into two sub-problems: (a) shifts in the data distribution, and (b) dealing with the fact that the data is split into chunks and so only a part of the data is available to be trained on at any point in time. In this work, we look at the latter sub-problem, the chunking of data. We show that chunking is an important part of CL, accounting for around half of the performance drop from offline learning in our experiments. Furthermore, our results reveal that current CL algorithms do not address the chunking sub-problem, only performing as well as plain SGD training when there is no shift in the data distribution. Therefore, we show that chunking is both an important and currently unaddressed sub-problem and until it is addressed CL methods will be capped in performance. Additionally, we analyse why performance drops when learning occurs on identically distributed chunks of data, and find that forgetting, which is often seen to be a problem due to distribution shift, still arises and is a significant problem. We also show that performance on the chunking sub-problem can be increased and that this performance transfers to the full CL setting, where there is distribution shift. Hence, we argue that work on chunking can help advance CL in general.
翻訳日:2024-07-12 23:47:33 公開日:2024-07-11
# 人の動きと行動セマンティクスのギャップをキネマティック・フェースで埋める

Bridging the Gap between Human Motion and Action Semantics via Kinematic Phrases ( http://arxiv.org/abs/2310.04189v3 )

ライセンス: Link先を確認
Xinpeng Liu, Yong-Lu Li, Ailing Zeng, Zizheng Zhou, Yang You, Cewu Lu, (参考訳) 動作理解は、動作意味論と行動意味論の信頼できるマッピングを確立することを目的としているが、これは多対多の問題である。 抽象的なアクションセマンティック(つまりウォーキングフォワード)は、知覚的に多様な動き(腕を上げたり振ったり)によって伝達される。 対照的に、動きは、その文脈と意図に異なる意味論を運ぶことができる。 これにより、両者のエレガントなマッピングが困難になる。 以前の試みでは信頼性に制限のあるダイレクトマッピングパラダイムを採用していた。 また、現在の自動メトリクスは、動作とアクションセマンティクスの一貫性を確実に評価することができない。 この2つのモード間の大きなギャップとして,これらの問題の根源を同定する。 このギャップを緩和するために、適切な抽象化、解釈可能性、一般性を備えた人の動きの客観的な運動的事実を捉えるKP(Kinematic Phrases)を提案する。 KPに基づいて、動作知識ベースを統一し、動作理解システムを構築することができる。 一方、KPは、運動から主観バイアスのないテキスト記述への自動変換が可能であり、新しいホワイトボックスモーション生成ベンチマークとしてKPG(Kinematic Prompt Generation)を刺激する。 広範囲な実験において,本手法は他の手法よりも優れていることを示す。 私たちのプロジェクトはhttps://foruck.github.io/KP/で利用可能です。

Motion understanding aims to establish a reliable mapping between motion and action semantics, while it is a challenging many-to-many problem. An abstract action semantic (i.e., walk forwards) could be conveyed by perceptually diverse motions (walking with arms up or swinging). In contrast, a motion could carry different semantics w.r.t. its context and intention. This makes an elegant mapping between them difficult. Previous attempts adopted direct-mapping paradigms with limited reliability. Also, current automatic metrics fail to provide reliable assessments of the consistency between motions and action semantics. We identify the source of these problems as the significant gap between the two modalities. To alleviate this gap, we propose Kinematic Phrases (KP) that take the objective kinematic facts of human motion with proper abstraction, interpretability, and generality. Based on KP, we can unify a motion knowledge base and build a motion understanding system. Meanwhile, KP can be automatically converted from motions to text descriptions with no subjective bias, inspiring Kinematic Prompt Generation (KPG) as a novel white-box motion generation benchmark. In extensive experiments, our approach shows superiority over other methods. Our project is available at https://foruck.github.io/KP/.
翻訳日:2024-07-12 23:47:33 公開日:2024-07-11
# Blackbox Queries を用いたパラメタライズド量子回路の補間

Interpolating Parametrized Quantum Circuits using Blackbox Queries ( http://arxiv.org/abs/2310.04396v4 )

ライセンス: Link先を確認
Lars Simon, Holger Eble, Hagen-Henrik Kowalski, Manuel Radons, (参考訳) 本稿では、(三角)多項式による補間を用いたパラメタライズド量子回路の古典的サロゲートの開発に焦点を当てる。 このようなサロゲートを構築するための2つのアルゴリズムを開発し、性能保証を証明する。 これらの構成は、回路の構造的特異性を悪用しないという意味で、ブラックボックスである回路評価に基づいている。 特定の回路特性を利用するホワイトボックス評価と比較してブラックボックスアプローチの限界を認める一方で、ブラックボックスアプローチが有益であることを示すシナリオを実証する。 サンプル応用は含まれているが、VQEの近似やバレンプラトー問題のアレヴィトンに制限されない。

This article focuses on developing classical surrogates for parametrized quantum circuits using interpolation via (trigonometric) polynomials. We develop two algorithms for the construction of such surrogates and prove performance guarantees. The constructions are based on circuit evaluations which are blackbox in the sense that no structural specifics of the circuits are exploited. While acknowledging the limitations of the blackbox approach compared to whitebox evaluations, which exploit specific circuit properties, we demonstrate scenarios in which the blackbox approach might prove beneficial. Sample applications include but are not restricted to the approximation of VQEs and the alleviaton of the barren plateau problem.
翻訳日:2024-07-12 23:47:33 公開日:2024-07-11
# In-Context Explainers: Black Box モデルの説明のための LLM のハーネス化

In-Context Explainers: Harnessing LLMs for Explaining Black Box Models ( http://arxiv.org/abs/2310.05797v4 )

ライセンス: Link先を確認
Nicholas Kroeger, Dan Ley, Satyapriya Krishna, Chirag Agarwal, Himabindu Lakkaraju, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、機械翻訳、常識推論、言語理解といった複雑なタスクにおいて、例外的な機能を示している。 このような多様なタスクにおけるLLMの適応性の主要な理由の1つは、インコンテキスト学習(ICL)能力である。 多様な言語や表課題におけるLLMの性能向上に効果があるにもかかわらず、これらの手法はポストホックな説明を生み出す可能性について徹底的に検討されていない。 本研究は、ICLを用いた他の複雑な予測モデルを説明する上で、LCMの有効性を分析するための最初の調査である。 そこで本研究では,LLMのICL機能を利用した3つの新しい手法であるIn-Context Explainersを提案する。 我々は,これらのアプローチを実世界の表やテキストのデータセット上で広範囲に分析し,LLMが最先端のポストホック説明法に類似した他の予測モデルを説明できることを実証し,複雑な予測モデルに関するLLMベースのポストホック説明の今後の研究への道を開く。

Recent advancements in Large Language Models (LLMs) have demonstrated exceptional capabilities in complex tasks like machine translation, commonsense reasoning, and language understanding. One of the primary reasons for the adaptability of LLMs in such diverse tasks is their in-context learning (ICL) capability, which allows them to perform well on new tasks by simply using a few task samples in the prompt. Despite their effectiveness in enhancing the performance of LLMs on diverse language and tabular tasks, these methods have not been thoroughly explored for their potential to generate post hoc explanations. In this work, we carry out one of the first explorations to analyze the effectiveness of LLMs in explaining other complex predictive models using ICL. To this end, we propose a novel framework, In-Context Explainers, comprising of three novel approaches that exploit the ICL capabilities of LLMs to explain the predictions made by other predictive models. We conduct extensive analysis with these approaches on real-world tabular and text datasets and demonstrate that LLMs are capable of explaining other predictive models similar to state-of-the-art post hoc explainers, opening up promising avenues for future research into LLM-based post hoc explanations of complex predictive models.
翻訳日:2024-07-12 23:47:33 公開日:2024-07-11
# 品質認識翻訳モデル:1つのモデルにおける効率的な生成と品質推定

Quality-Aware Translation Models: Efficient Generation and Quality Estimation in a Single Model ( http://arxiv.org/abs/2310.06707v4 )

ライセンス: Link先を確認
Christian Tomani, David Vilar, Markus Freitag, Colin Cherry, Subhajit Naskar, Mara Finkelstein, Xavier Garcia, Daniel Cremers, (参考訳) MAP復号(Maximum-a-posteriori)は、ニューラルネットワーク翻訳(NMT)モデルにおいて最も広く使われている復号法である。 基礎となる前提は、モデル確率は人間の判断とよく相関し、より良い翻訳がモデルによってより高いスコアを与えられるというものである。 しかし、この仮定が常に成り立つわけではないことを示し、最小ベイズリスク(MBR)や品質認識復号によって行われるような、計量や品質推定信号に裏打ちされたユーティリティ関数を最適化するためにデコードすることで、生成品質を改善することができる。 これらの手法の主な欠点は、復号化時に実用関数を計算するための追加モデルが必要であり、計算コストが大幅に増加することである。 本稿では,NMTモデル自体の品質を学習し,その品質を推定することで,NMTモデル自体を品質に適応させることを提案する。 MBRデコーディングのこのアプローチを用いることで、候補リストのサイズを大幅に削減でき、結果として2桁の速度が向上する。 MAPデコーディングに本手法を適用する際には,単一パスの復号化の効率が向上するのに対し,品質向上は品質向上と同等かそれ以上に優れている。

Maximum-a-posteriori (MAP) decoding is the most widely used decoding strategy for neural machine translation (NMT) models. The underlying assumption is that model probability correlates well with human judgment, with better translations getting assigned a higher score by the model. However, research has shown that this assumption does not always hold, and generation quality can be improved by decoding to optimize a utility function backed by a metric or quality-estimation signal, as is done by Minimum Bayes Risk (MBR) or quality-aware decoding. The main disadvantage of these approaches is that they require an additional model to calculate the utility function during decoding, significantly increasing the computational cost. In this paper, we propose to make the NMT models themselves quality-aware by training them to estimate the quality of their own output. Using this approach for MBR decoding we can drastically reduce the size of the candidate list, resulting in a speed-up of two-orders of magnitude. When applying our method to MAP decoding we obtain quality gains similar or even superior to quality reranking approaches, but with the efficiency of single pass decoding.
翻訳日:2024-07-12 23:47:33 公開日:2024-07-11
# Angular Momentum Flowは、何も持たない

Angular Momentum Flows without anything carrying it ( http://arxiv.org/abs/2310.07568v5 )

ライセンス: Link先を確認
Yakir Aharonov, Daniel Collins, Sandu Popescu, (参考訳) 保存された量の2つの領域間での移動は、一般的には、保存された量を運ぶ粒子の束が、ある領域から別の領域へ伝播する、かなり自明な過程であると仮定される。 しかしながら、ある領域から別の領域への角運動量のフローは、任意の粒子(または場)が存在するという、消えるほど小さな確率が存在する空間の領域にまたがる。 このことは、保存法がどのように機能するかに関する通常の見解を再考する必要があることを示している。

Transfer of conserved quantities between two remote regions is generally assumed to be a rather trivial process: a flux of particles carrying the conserved quantities propagates from one region to another. We however demonstrate a flow of angular momentum from one region to another across a region of space in which there is a vanishingly small probability of any particles (or fields) being present. This shows that the usual view of how conservation laws work needs to be revisited.
翻訳日:2024-07-12 23:47:33 公開日:2024-07-11
# 自己監督型 ViT 時代における教師なし物体の局在:サーベイ

Unsupervised Object Localization in the Era of Self-Supervised ViTs: A Survey ( http://arxiv.org/abs/2310.12904v2 )

ライセンス: Link先を確認
Oriane Siméoni, Éloi Zablocki, Spyros Gidaris, Gilles Puy, Patrick Pérez, (参考訳) オープンワールドビジョンシステムに対する最近の熱意は、これまで非常に人気があったクローズドボキャブラリベンチマークのセットアップ以外の知覚タスクを実行することに対するコミュニティの関心の高さを示している。 データセットにどのオブジェクトが浮かぶのかを事前に知ることなく、画像やビデオでオブジェクトを発見できることは、エキサイティングな期待だ。 しかし、それらについて何も知らないまま、オブジェクトを見つけるにはどうすればよいのか? 近年の研究では、自己教師付き事前訓練機能を利用することで、クラスに依存しない非教師付きオブジェクトローカライゼーションが可能であることが示されている。 本稿では,自己教師型 ViT の時代において手動のアノテーションを必要とせず,画像中のオブジェクトを検出する非教師付きオブジェクトローカライズ手法を提案する。 議論されたメソッドのリンクをリポジトリ https://github.com/valeoai/Awesome-Unsupervised-Object-Localization に集めます。

The recent enthusiasm for open-world vision systems show the high interest of the community to perform perception tasks outside of the closed-vocabulary benchmark setups which have been so popular until now. Being able to discover objects in images/videos without knowing in advance what objects populate the dataset is an exciting prospect. But how to find objects without knowing anything about them? Recent works show that it is possible to perform class-agnostic unsupervised object localization by exploiting self-supervised pre-trained features. We propose here a survey of unsupervised object localization methods that discover objects in images without requiring any manual annotation in the era of self-supervised ViTs. We gather links of discussed methods in the repository https://github.com/valeoai/Awesome-Unsupervised-Object-Localization.
翻訳日:2024-07-12 23:47:33 公開日:2024-07-11
# 欠陥スペクトル: リッチセマンティックスを用いた大規模欠陥データセットの粒度図

Defect Spectrum: A Granular Look of Large-Scale Defect Datasets with Rich Semantics ( http://arxiv.org/abs/2310.17316v4 )

ライセンス: Link先を確認
Shuai Yang, Zhifei Chen, Pengguang Chen, Xi Fang, Shu Liu, Yingcong Chen, (参考訳) クローズドループ製造システムでは欠陥検査が最重要である。 しかし、欠陥検査のための既存のデータセットは、実際的なアプリケーションに必要な精度とセマンティックな粒度を欠いていることが多い。 本稿では,広範囲の産業的欠陥に対して,高精度でセマンティックなアノテーションと大規模アノテーションを提供する包括的ベンチマークであるDefect Spectrumを紹介する。 4つの重要な産業ベンチマークに基づいて、私たちのデータセットは既存のアノテーションを洗練し、単一のイメージ内の複数の欠陥タイプを識別する、リッチなセマンティックな詳細を導入します。 さらに、限られたデータセットを扱う場合でも、高品質で多様な欠陥画像を生成するように設計された2段階拡散ベースジェネレータであるDefect-Genを紹介する。 Defect-Genによって生成された合成画像は、欠陥検査モデルの有効性を著しく向上させた。 全体として、Defect Spectrumデータセットは、欠陥検査研究の可能性を実証し、高度なモデルをテストおよび精錬するための堅固なプラットフォームを提供する。

Defect inspection is paramount within the closed-loop manufacturing system. However, existing datasets for defect inspection often lack precision and semantic granularity required for practical applications. In this paper, we introduce the Defect Spectrum, a comprehensive benchmark that offers precise, semantic-abundant, and large-scale annotations for a wide range of industrial defects. Building on four key industrial benchmarks, our dataset refines existing annotations and introduces rich semantic details, distinguishing multiple defect types within a single image. Furthermore, we introduce Defect-Gen, a two-stage diffusion-based generator designed to create high-quality and diverse defective images, even when working with limited datasets. The synthetic images generated by Defect-Gen significantly enhance the efficacy of defect inspection models. Overall, The Defect Spectrum dataset demonstrates its potential in defect inspection research, offering a solid platform for testing and refining advanced models.
翻訳日:2024-07-12 23:47:33 公開日:2024-07-11
# RAIFLE: 対話型フェデレーション学習における逆データ操作による再構成攻撃

RAIFLE: Reconstruction Attacks on Interaction-based Federated Learning with Adversarial Data Manipulation ( http://arxiv.org/abs/2310.19163v2 )

ライセンス: Link先を確認
Dzung Pham, Shreyas Kulkarni, Amir Houmansadr, (参考訳) フェデレーテッド・ラーニング(Federated Learning)は、ユーザーインタラクション、特に推奨システムやランク付けのためのオンライン学習に依存する機械学習ドメインのための、有望なプライバシ保護ソリューションとして登場した。 従来のフェデレーション学習のプライバシに関する大規模な研究は行われているが、これらのインタラクションベースの設定のプライバシ特性にはほとんど関心が払われていない。 本研究では,ユーザが対話するアイテムのトレーニング機能をサーバが制御できる場合には,中央サーバがプライベートなインタラクションを再構築するリスクが高くなることを示す。 RAIFLEは、サーバがユーザに提示したアイテムの特徴を積極的に操作し、再構築の成功率を高めるための、新しい最適化ベースの攻撃フレームワークである。 本実験は, RAIFLE が, 勾配逆転などの既存再建攻撃よりもはるかに強力であり, 高い性能を達成できることを示すものである。 本稿では,対話型フェデレーション学習の文脈におけるRAIFLE対策の可能性と問題点について論じる。 私たちのコードはhttps://github.com/dzungvpham/raifle.comでオープンソース化されています。

Federated learning has emerged as a promising privacy-preserving solution for machine learning domains that rely on user interactions, particularly recommender systems and online learning to rank. While there has been substantial research on the privacy of traditional federated learning, little attention has been paid to the privacy properties of these interaction-based settings. In this work, we show that users face an elevated risk of having their private interactions reconstructed by the central server when the server can control the training features of the items that users interact with. We introduce RAIFLE, a novel optimization-based attack framework where the server actively manipulates the features of the items presented to users to increase the success rate of reconstruction. Our experiments with federated recommendation and online learning-to-rank scenarios demonstrate that RAIFLE is significantly more powerful than existing reconstruction attacks like gradient inversion, achieving high performance consistently in most settings. We discuss the pros and cons of several possible countermeasures to defend against RAIFLE in the context of interaction-based federated learning. Our code is open-sourced at https://github.com/dzungvpham/raifle.
翻訳日:2024-07-12 23:47:33 公開日:2024-07-11
# 量子モラゲームにおけるフォトニックな実装

Photonic implementation of the quantum Morra game ( http://arxiv.org/abs/2311.08495v3 )

ライセンス: Link先を確認
Andres Ulibarrena, Alejandro Sopena, Russell Brooks, Daniel Centeno, Joseph Ho, German Sierra, Alessandro Fedrizzi, (参考訳) 本稿では,古典ゲームを特殊なケースとして含めることで,従来の研究を基盤とした2プレーヤ量子モラゲームの忠実な翻訳について検討する。 本稿では、アリスが古典ゲームのバランスを崩し、勝利の優位性を持つ量子状態におけるゲームの自然な変形を提案する。 ナッシュ均衡は、混合戦略が常に必要となる古典ゲームでは不可能な純粋な戦略を用いることで、いくつかのケースで見つかる。 測定結果の確率に対して平均偏差が2%未満の線形光学装置でフォトニック量子ビットを作製した。 最後に、量子情報と通信の研究における量子モラゲームの可能性について論じる。

In this paper, we study a faithful translation of a two-player quantum Morra game, which builds on previous work by including the classical game as a special case. We propose a natural deformation of the game in the quantum regime in which Alice has a winning advantage, breaking the balance of the classical game. A Nash equilibrium can be found in some cases by employing a pure strategy, which is impossible in the classical game where a mixed strategy is always required. We prepared our states using photonic qubits on a linear optics setup, with an average deviation less than 2% with respect to the measured outcome probabilities. Finally, we discuss potential applications of the quantum Morra game to the study of quantum information and communication.
翻訳日:2024-07-12 23:37:48 公開日:2024-07-11
# クロスドメイン時系列解析タスクのための大規模事前学習時系列モデル

Large Pre-trained time series models for cross-domain Time series analysis tasks ( http://arxiv.org/abs/2311.11413v2 )

ライセンス: Link先を確認
Harshavardhan Kamarthi, B. Aditya Prakash, (参考訳) 大規模な事前学習モデルは、言語やビジョンといった領域の最近の進歩において不可欠であり、個々の下流タスクのためのモデルトレーニングをより効率的にし、優れたパフォーマンスを提供する。 しかしながら、時系列分析タスクに対処するには、通常、タスク固有のトレーニングデータとドメインの専門知識を活用して、スクラッチから別々のモデルを設計し、訓練する必要がある。 我々は、複数のドメインの時系列データセットから基本時系列モデルを事前学習する上で、重要な課題に取り組み、異なるドメインから異種時系列にわたって意味的に有用なトークン化された入力をモデルに抽出する。 本稿では,事前学習中に最適なデータセット固有のセグメンテーション戦略を自動的に識別する,‘textit{adaptive segmentation’という新しい手法を導入する,LPTM(Large Pre-trained Time-Seグメンテーションモデル)を提案する。 これにより、異なるダウンストリーム時系列分析タスクに微調整され、ゼロショット設定下では、LPTMはドメイン固有の最先端モデルと同等かそれ以上の性能を発揮する。 LPTMは、最先端のベースラインに比べて最大40%データが少なく、トレーニング時間も50%少ない。

Large pre-trained models have been vital in recent advancements in domains like language and vision, making model training for individual downstream tasks more efficient and provide superior performance. However, tackling time-series analysis tasks usually involves designing and training a separate model from scratch leveraging training data and domain expertise specific to the task. We tackle a significant challenge for pre-training a foundational time-series model from multi-domain time-series datasets: extracting semantically useful tokenized inputs to the model across heterogenous time-series from different domains. We propose Large Pre-trained Time-series Models (LPTM) that introduces a novel method of \textit{adaptive segmentation} that automatically identifies optimal dataset-specific segmentation strategy during pre-training. This enables LPTM to perform similar to or better than domain-specific state-of-art model when fine-tuned to different downstream time-series analysis tasks and under zero-shot settings. LPTM achieves superior forecasting and time-series classification results taking up to 40% less data and 50% less training time compared to state-of-art baselines.
翻訳日:2024-07-12 23:37:48 公開日:2024-07-11
# Masked Latent Generative Modeling を用いた説明可能な時系列異常検出

Explainable Time Series Anomaly Detection using Masked Latent Generative Modeling ( http://arxiv.org/abs/2311.12550v4 )

ライセンス: Link先を確認
Daesoo Lee, Sara Malacarne, Erlend Aune, (参考訳) 本稿では,より優れた説明性を提供しながら,優れた検出精度を実現する新しい時系列異常検出手法を提案する。 提案手法であるTimeVQVAE-ADは、TimeVQVAEとして知られる最先端の時系列生成法に適応したマスク付き生成モデルを利用する。 先行モデルは、時間周波数領域の離散潜在空間に基づいて訓練される。 特に、時間周波数領域の次元的意味論は潜時空間に保存され、異なる周波数帯域にわたる異常スコアを計算し、検出された異常についてより深い洞察を与えることができる。 さらに、先行モデルの生成特性は、検出された異常に対する通常の状態のサンプリングを可能にし、検出された異常の説明可能性を高める。 UCR Time Series Anomaly アーカイブを用いた実験により,TimeVQVAE-AD が検出精度と説明可能性において既存の手法を大幅に上回っていることが示された。 われわれはGitHub上で実装を行っている。 \url{https://github.com/ML4ITS/TimeVQVAE-AnomalyDetection}。

We present a novel time series anomaly detection method that achieves excellent detection accuracy while offering a superior level of explainability. Our proposed method, TimeVQVAE-AD, leverages masked generative modeling adapted from the cutting-edge time series generation method known as TimeVQVAE. The prior model is trained on the discrete latent space of a time-frequency domain. Notably, the dimensional semantics of the time-frequency domain are preserved in the latent space, enabling us to compute anomaly scores across different frequency bands, which provides a better insight into the detected anomalies. Additionally, the generative nature of the prior model allows for sampling likely normal states for detected anomalies, enhancing the explainability of the detected anomalies through counterfactuals. Our experimental evaluation on the UCR Time Series Anomaly archive demonstrates that TimeVQVAE-AD significantly surpasses the existing methods in terms of detection accuracy and explainability. We provide our implementation on GitHub: \url{https://github.com/ML4ITS/TimeVQVAE-AnomalyDetection}.
翻訳日:2024-07-12 23:37:48 公開日:2024-07-11
# 高等教育におけるChatGPTの社会的バイアスの可能性:スコーピング・レビュー

Potential Societal Biases of ChatGPT in Higher Education: A Scoping Review ( http://arxiv.org/abs/2311.14381v3 )

ライセンス: Link先を確認
Ming Li, Ariunaa Enkhtur, Beverley Anne Yamamoto, Fei Cheng, Lilan Chen, (参考訳) 目的:ChatGPTのような生成人工知能(Generative Artificial Intelligence, GAI)モデルは、広範囲なデータセットのトレーニングによって社会的バイアスを継承または増幅することができる。 高等教育機関(HEIs)における学生、教員、職員のGAI利用の増加に伴い、これらの技術に関連する倫理的問題や潜在的なバイアスについて検討することが急務である。 デザイン/アプリケーション/メソッド:このスコーピングレビューは、近年の学術論文で、AIに関するバイアスがどのように研究され議論されているかを明らかにすることを目的としている。 我々は、高等教育分野において、GAIが引き起こす可能性のある社会的バイアスを分類した。 本レビューでは,4つの主要データベースにまたがる英語,中国語,日本語の記事を取り上げ,高等教育におけるGAI活用と偏見に着目した。 我々の発見は、AI分野におけるLSMに関するバイアスと差別に関する有意義な学術的な議論がある一方で、高等教育のアプローチに関するほとんどの記事が表面上問題にアプローチしていることを示している。 異なる状況下で特定の種類の偏見を識別する記事はほとんどなく、実証研究の欠如が顕著である。 概説では、主に医学・工学に関する教育・研究分野に焦点をあてており、一部は英語教育について論じている。 しかし、人文科学や社会科学に関する議論はほとんどない。 さらに、現在の談話の大部分は英語で書かれており、主に英語の文脈を扱う。 原性/価値:私たちの知識を最大限に活用するために、私たちの研究は、高等教育における潜在的な社会的バイアスを初めて要約したものです。 このレビューは、GAIが教育環境で導入または増幅する可能性のある特定のバイアスを理解するために、より深い研究と実証的な研究の必要性を強調し、高等教育におけるより倫理的なAIアプリケーションの開発を導く。

Purpose:Generative Artificial Intelligence (GAI) models, such as ChatGPT, may inherit or amplify societal biases due to their training on extensive datasets. With the increasing usage of GAI by students, faculty, and staff in higher education institutions (HEIs), it is urgent to examine the ethical issues and potential biases associated with these technologies. Design/Approach/Methods:This scoping review aims to elucidate how biases related to GAI in HEIs have been researched and discussed in recent academic publications. We categorized the potential societal biases that GAI might cause in the field of higher education. Our review includes articles written in English, Chinese, and Japanese across four main databases, focusing on GAI usage in higher education and bias. Findings:Our findings reveal that while there is meaningful scholarly discussion around bias and discrimination concerning LLMs in the AI field, most articles addressing higher education approach the issue superficially. Few articles identify specific types of bias under different circumstances, and there is a notable lack of empirical research. Most papers in our review focus primarily on educational and research fields related to medicine and engineering, with some addressing English education. However, there is almost no discussion regarding the humanities and social sciences. Additionally, a significant portion of the current discourse is in English and primarily addresses English-speaking contexts. Originality/Value:To the best of our knowledge, our study is the first to summarize the potential societal biases in higher education. This review highlights the need for more in-depth studies and empirical work to understand the specific biases that GAI might introduce or amplify in educational settings, guiding the development of more ethical AI applications in higher education.
翻訳日:2024-07-12 23:37:48 公開日:2024-07-11
# 関節拡散 : PET-MRIココンストラクションのための相互整合駆動拡散モデル

Joint Diffusion: Mutual Consistency-Driven Diffusion Model for PET-MRI Co-Reconstruction ( http://arxiv.org/abs/2311.14473v2 )

ライセンス: Link先を確認
Taofeng Xie, Zhuo-Xu Cui, Chen Luo, Huayu Wang, Congcong Liu, Yuanzhi Zhang, Xuemei Wang, Yanjie Zhu, Guoqing Chen, Dong Liang, Qiyu Jin, Yihang Zhou, Haifeng Wang, (参考訳) ポジトロン・エミッション・トモグラフィーと磁気共鳴イメージング(PET-MRI)システムは機能的および解剖学的スキャンを得ることができる。 PETは信号対雑音比が低い。 一方、MRIにおけるk-spaceデータ取得プロセスは時間を要する。 この研究は、MRIを加速し、PET画像の品質を向上させることを目的としている。 従来のアプローチでは、PET-MRIシステム内の各モードを別々に再構成する。 しかし、マルチモーダル画像の間に相補的な情報が存在する。 補完情報は、画像再構成に寄与することができる。 本研究では,相互整合駆動拡散モード(MC-Diffusion)を用いた新しいPET-MRI関節再構成モデルを提案する。 MC-Diffusionは補完情報を利用するためにPETとMRIの結合確率分布を学習する。 ADNIデータセットによるLPLS,ジョイントISAT-net,MC-Diffusionのコントラスト実験を行った。 その結果, MC-Diffusionによる質的, 定量的な改善が, 最先端の手法を超越した結果となった。

Positron Emission Tomography and Magnetic Resonance Imaging (PET-MRI) systems can obtain functional and anatomical scans. PET suffers from a low signal-to-noise ratio. Meanwhile, the k-space data acquisition process in MRI is time-consuming. The study aims to accelerate MRI and enhance PET image quality. Conventional approaches involve the separate reconstruction of each modality within PET-MRI systems. However, there exists complementary information among multi-modal images. The complementary information can contribute to image reconstruction. In this study, we propose a novel PET-MRI joint reconstruction model employing a mutual consistency-driven diffusion mode, namely MC-Diffusion. MC-Diffusion learns the joint probability distribution of PET and MRI for utilizing complementary information. We conducted a series of contrast experiments about LPLS, Joint ISAT-net and MC-Diffusion by the ADNI dataset. The results underscore the qualitative and quantitative improvements achieved by MC-Diffusion, surpassing the state-of-the-art method.
翻訳日:2024-07-12 23:37:48 公開日:2024-07-11
# CLAP: Augmented Promptsによるコントラスト学習によるコンテンツ分離

CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts ( http://arxiv.org/abs/2311.16445v4 )

ライセンス: Link先を確認
Yichao Cai, Yuhang Liu, Zhen Zhang, Javen Qinfeng Shi, (参考訳) CLIPのような対照的な視覚言語モデルは、学習した特徴を一般化するための顕著な能力のために、様々なdowmsteamタスクにかなりの注意を払っている。 しかし、彼らが学んだ機能は、しばしばコンテンツとスタイル情報をブレンドする。 この制限に対処するために,マルチモーダルデータに対する因果的生成的視点を採用し,データ拡張によるコントラスト学習を提案し,元の表現からコンテンツ特徴を引き離す。 そこで我々はまず,画像拡張手法の探求から始め,それらを事前学習したCLIPのようなモデルにシームレスに統合し,純粋なコンテンツ特徴を抽出する手法を開発した。 テキストデータの固有の意味的豊かさと論理構造を認識し、さらに一歩進めて、スタイル特徴から潜在コンテンツを切り離すためのテキスト拡張の利用について検討する。 これにより、CLIPライクなモデルのエンコーダは、遅延コンテンツ情報に集中し、事前トレーニングされたCLIPライクなモデルによって学習された表現を精査することができる。 多様なデータセットにわたる広範な実験により、様々な摂動に対する堅牢性の向上とともに、ゼロショットと少数ショットの分類タスクが大幅に改善された。 これらの結果は,視覚言語表現の洗練とマルチモーダル学習における最先端化における提案手法の有効性を裏付けるものである。

Contrastive vision-language models, such as CLIP, have garnered considerable attention for various dowmsteam tasks, mainly due to the remarkable ability of the learned features for generalization. However, the features they learned often blend content and style information, which somewhat limits their generalization capabilities under distribution shifts. To address this limitation, we adopt a causal generative perspective for multimodal data and propose contrastive learning with data augmentation to disentangle content features from the original representations. To achieve this, we begin with exploring image augmentation techniques and develop a method to seamlessly integrate them into pre-trained CLIP-like models to extract pure content features. Taking a step further, recognizing the inherent semantic richness and logical structure of text data, we explore the use of text augmentation to isolate latent content from style features. This enables CLIP-like model's encoders to concentrate on latent content information, refining the learned representations by pre-trained CLIP-like models. Our extensive experiments across diverse datasets demonstrate significant improvements in zero-shot and few-shot classification tasks, alongside enhanced robustness to various perturbations. These results underscore the effectiveness of our proposed methods in refining vision-language representations and advancing the state-of-the-art in multimodal learning.
翻訳日:2024-07-12 23:37:48 公開日:2024-07-11
# I-MedSAM: セグメンテーションによる医用画像セグメンテーション

I-MedSAM: Implicit Medical Image Segmentation with Segment Anything ( http://arxiv.org/abs/2311.17081v3 )

ライセンス: Link先を確認
Xiaobao Wei, Jiajun Cao, Yizhu Jin, Ming Lu, Guangyu Wang, Shanghang Zhang, (参考訳) ディープニューラルネットワーク(DNN)の開発により、医療画像のセグメンテーションに多くの取り組みがなされている。 nnUNetのような従来の手法では、個々のデータセット上で特定のセグメンテーションモデルをトレーニングしている。 基礎的なセグメンテーションモデル(SAM)を医用画像セグメンテーションに適用する手法が,近年提案されている。 しかし、彼らは依然として、空間的に非フレキシブルで高解像度ではスケールの悪いピクセルワイズ予測を生成するために、離散表現に焦点を当てている。 対照的に、暗黙的手法は、医用画像のセグメンテーションに欠かせないセグメンテーションの連続的な表現を学習する。 本稿では,連続表現とSAMの両方の利点を利用するI-MedSAMを提案する。 医用画像のセグメンテーションは,詳細なセグメンテーション境界を予測する必要があるため,パラメータ・エフェクト・ファイン・チューニング(PEFT)において,SAM特徴を高周波数情報で拡張する新しいアダプタを設計した。 Inlicit Neural Representation (INR) を用いて暗黙のセグメンテーションデコーダを学習する。 また、INRの効率的な学習のための不確実性誘導サンプリング戦略を提案する。 2次元医用画像セグメンテーションタスクの大規模評価により, トレーニング可能なパラメータが1.6Mに留まる提案手法は, 離散的, 暗黙的手法を含む既存の手法よりも優れていることが示された。 コードは、https://github.com/ucwxb/I-MedSAM.comで入手できる。

With the development of Deep Neural Networks (DNNs), many efforts have been made to handle medical image segmentation. Traditional methods such as nnUNet train specific segmentation models on the individual datasets. Plenty of recent methods have been proposed to adapt the foundational Segment Anything Model (SAM) to medical image segmentation. However, they still focus on discrete representations to generate pixel-wise predictions, which are spatially inflexible and scale poorly to higher resolution. In contrast, implicit methods learn continuous representations for segmentation, which is crucial for medical image segmentation. In this paper, we propose I-MedSAM, which leverages the benefits of both continuous representations and SAM, to obtain better cross-domain ability and accurate boundary delineation. Since medical image segmentation needs to predict detailed segmentation boundaries, we designed a novel adapter to enhance the SAM features with high-frequency information during Parameter-Efficient Fine-Tuning (PEFT). To convert the SAM features and coordinates into continuous segmentation output, we utilize Implicit Neural Representation (INR) to learn an implicit segmentation decoder. We also propose an uncertainty-guided sampling strategy for efficient learning of INR. Extensive evaluations on 2D medical image segmentation tasks have shown that our proposed method with only 1.6M trainable parameters outperforms existing methods including discrete and implicit methods. The code will be available at: https://github.com/ucwxb/I-MedSAM.
翻訳日:2024-07-12 23:37:48 公開日:2024-07-11
# グラフに基づくカテゴリー非依存型ポース推定法

A Graph-Based Approach for Category-Agnostic Pose Estimation ( http://arxiv.org/abs/2311.17891v2 )

ライセンス: Link先を確認
Or Hirschorn, Shai Avidan, (参考訳) 従来の2次元ポーズ推定モデルは、カテゴリ固有の設計によって制限され、事前定義されたオブジェクトカテゴリにのみ適合する。 この制限は、関連するトレーニングデータがないため、新しいオブジェクトを扱う際に特に困難になる。 この制限に対処するため、カテゴリーに依存しないポーズ推定(CAPE)を導入した。 CAPEは、数ショットの単一モデルを使用して任意のオブジェクトカテゴリのキーポイントローカライズを可能にすることを目的としており、注釈付きキーポイントを持つ最小のサポートイメージを必要とする。 本稿では、入力ポーズデータをグラフとして扱うことにより、キーポイントを独立したエンティティとして扱う従来のCAPE技術との大きな違いを示す。 我々は、グラフベースのネットワークを通じてキーポイント間の固有の幾何学的関係を利用して対称性を破り、構造を保ち、オクルージョンをうまく扱う。 我々は、100以上のカテゴリにまたがる2万以上の画像からなる包括的なデータセットであるMP-100ベンチマークに対するアプローチを検証する。 提案手法は1ショット設定で0.98%向上し,CAPEの新たな最先端を実現する。 さらに、スケルトンアノテーションでデータセットを強化する。 私たちのコードとデータは公開されています。

Traditional 2D pose estimation models are limited by their category-specific design, making them suitable only for predefined object categories. This restriction becomes particularly challenging when dealing with novel objects due to the lack of relevant training data. To address this limitation, category-agnostic pose estimation (CAPE) was introduced. CAPE aims to enable keypoint localization for arbitrary object categories using a few-shot single model, requiring minimal support images with annotated keypoints. We present a significant departure from conventional CAPE techniques, which treat keypoints as isolated entities, by treating the input pose data as a graph. We leverage the inherent geometrical relations between keypoints through a graph-based network to break symmetry, preserve structure, and better handle occlusions. We validate our approach on the MP-100 benchmark, a comprehensive dataset comprising over 20,000 images spanning over 100 categories. Our solution boosts performance by 0.98% under a 1-shot setting, achieving a new state-of-the-art for CAPE. Additionally, we enhance the dataset with skeleton annotations. Our code and data are publicly available.
翻訳日:2024-07-12 23:37:48 公開日:2024-07-11
# DEVIAS: ホロスティックビデオ理解のためのアンタングル映像表現学習

DEVIAS: Learning Disentangled Video Representations of Action and Scene for Holistic Video Understanding ( http://arxiv.org/abs/2312.00826v2 )

ライセンス: Link先を確認
Kyungho Bae, Geo Ahn, Youngrae Kim, Jinwoo Choi, (参考訳) ビデオを見るとき、アクションとシーンの組み合わせが珍しいときでも、人間は周囲のシーンのコンテキストから自然に人間の行動を抽出することができる。 しかしながら、人間とは異なり、ビデオアクション認識モデルは、トレーニングデータの急激な相関からシーンバイアスされたアクション表現を学習することが多く、文脈外のシナリオではパフォーマンスが低下する。 シーン偏りのモデルでは、コンテキスト外のシナリオではパフォーマンスが向上するが、データ内の貴重なシーン情報を見落としてしまうことが多い。 この課題に対処するため,本研究では,包括的ビデオ理解の実現を目的とした,Distangled VIdeo representations of Action and Scene (DEVIAS)を提案する。 本手法では,ダウンストリームタスクやデータセットの特性に応じて,アクションやシーン情報に重点を置くための柔軟性が期待できる。 アンタングル化されたアクションとシーン表現は、コンテキスト内とコンテキスト外の両方の理解に有用である。 この目的のために、スロットアテンションを用いて、スロットアテンションをさらにガイドする補助タスクとともに、1つのモデルで非交叉アクションとシーン表現を学習する。 提案手法は, UCF-101 と Kinetics-400 の2つのコンテキスト内データセットと, SCUBA と HAT の2つのコンテキスト外データセットで検証する。 提案手法は,ベースラインと異なるデータセット間で良好な性能を示し,その効果を多様なビデオ理解シナリオで示す。

When watching a video, humans can naturally extract human actions from the surrounding scene context, even when action-scene combinations are unusual. However, unlike humans, video action recognition models often learn scene-biased action representations from the spurious correlation in training data, leading to poor performance in out-of-context scenarios. While scene-debiased models achieve improved performance in out-of-context scenarios, they often overlook valuable scene information in the data. Addressing this challenge, we propose Disentangled VIdeo representations of Action and Scene (DEVIAS), which aims to achieve holistic video understanding. Disentangled action and scene representations with our method could provide flexibility to adjust the emphasis on action or scene information depending on downstream task and dataset characteristics. Disentangled action and scene representations could be beneficial for both in-context and out-of-context video understanding. To this end, we employ slot attention to learn disentangled action and scene representations with a single model, along with auxiliary tasks that further guide slot attention. We validate the proposed method on both in-context datasets: UCF-101 and Kinetics-400, and out-of-context datasets: SCUBA and HAT. Our proposed method shows favorable performance across different datasets compared to the baselines, demonstrating its effectiveness in diverse video understanding scenarios.
翻訳日:2024-07-12 23:37:48 公開日:2024-07-11
# 大規模言語モデル幾何学の特徴付けは、毒性の検出と生成を助ける

Characterizing Large Language Model Geometry Helps Solve Toxicity Detection and Generation ( http://arxiv.org/abs/2312.01648v3 )

ライセンス: Link先を確認
Randall Balestriero, Romain Cosentino, Sarath Shekkizhar, (参考訳) 大きな言語モデル(LLM)は、内部表現についてほとんど知られていないにも関わらず、現在のAIのブレークスルーを加速させる。 本研究では,LLMの内部機構の光を幾何学のレンズで遮蔽する手法を提案する。 特に、我々は閉形式 $ で発展する。 (i)$ マルチヘッドアテンションの埋め込みが存在に制約されている本質的な次元と$ (ii) LLMの層からなるフィードフォワード(MLP)ネットワークのパーティションおよびリージョンごとのアフィンマッピングを$に設定する。 我々の理論的な知見は、最先端のLCMに適用可能な、新しい原理化されたソリューションの設計をさらに可能とします。 まず,LLMのRLHF保護を回避できることを示す。 第2に,任意の(事前学習された) LLM から抽出可能な解釈可能な幾何学的特徴を導出し,それらの入力を抽象的に表現する。 これらの特徴は、毒性検出の解決に十分であり、また、様々な種類の毒性の同定にも有効である。 この結果から,LLMの実践的疑問に対して,大規模体制においても正確な理論的結果がどう答えられるかが示唆された。 コード:https://github.com/RandallBalestriero/SplineLLM

Large Language Models (LLMs) drive current AI breakthroughs despite very little being known about their internal representations. In this work, we propose to shed the light on LLMs inner mechanisms through the lens of geometry. In particular, we develop in closed form $(i)$ the intrinsic dimension in which the Multi-Head Attention embeddings are constrained to exist and $(ii)$ the partition and per-region affine mappings of the feedforward (MLP) network of LLMs' layers. Our theoretical findings further enable the design of novel principled solutions applicable to state-of-the-art LLMs. First, we show that, through our geometric understanding, we can bypass LLMs' RLHF protection by controlling the embedding's intrinsic dimension through informed prompt manipulation. Second, we derive interpretable geometrical features that can be extracted from any (pre-trained) LLM, providing a rich abstract representation of their inputs. We observe that these features are sufficient to help solve toxicity detection, and even allow the identification of various types of toxicity. Our results demonstrate how, even in large-scale regimes, exact theoretical results can answer practical questions in LLMs. Code: https://github.com/RandallBalestriero/SplineLLM
翻訳日:2024-07-12 23:37:48 公開日:2024-07-11
# Reason2Drive: 自律運転のための解釈型および連鎖型推論を目指して

Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving ( http://arxiv.org/abs/2312.03661v2 )

ライセンス: Link先を確認
Ming Nie, Renyuan Peng, Chunwei Wang, Xinyue Cai, Jianhua Han, Hang Xu, Li Zhang, (参考訳) 大規模視覚言語モデル(VLM)は、自動運転車の振る舞いに不可欠な複雑な推論タスクにおける高度な能力のため、自動運転分野への関心が高まっている。 その可能性にもかかわらず、自律システムの研究は、運転における意思決定プロセスを説明する注釈付き推論チェーンを持つデータセットの欠如によって妨げられている。 このギャップを埋めるために、複雑な運転環境における解釈可能な推論の研究を容易にすることを目的として、600万以上のビデオテキストペアを備えたベンチマークデータセットであるReason2Driveを紹介した。 我々は、自律運転過程を知覚、予測、推論ステップの逐次組み合わせとして特徴付け、質問と回答のペアは、nuScenes、Waymo、ONCEを含む様々なオープンソース屋外運転データセットから自動的に収集される。 さらに,自律システムにおけるチェーンベースの推論性能を評価するために,BLEUやCIDErといった既存のメトリクスのセマンティックアンビグスに対処する新たなアグリゲーション評価指標を導入する。 提案したベンチマークに基づいて,既存のVLMの評価実験を行い,その推論能力に関する知見を明らかにした。 さらに,VLMに特徴抽出と予測の両方においてオブジェクトレベルの知覚的要素を活用するための効率的なアプローチを開発し,その推論精度をさらに高める。 コードとデータセットがリリースされる。

Large vision-language models (VLMs) have garnered increasing interest in autonomous driving areas, due to their advanced capabilities in complex reasoning tasks essential for highly autonomous vehicle behavior. Despite their potential, research in autonomous systems is hindered by the lack of datasets with annotated reasoning chains that explain the decision-making processes in driving. To bridge this gap, we present Reason2Drive, a benchmark dataset with over 600K video-text pairs, aimed at facilitating the study of interpretable reasoning in complex driving environments. We distinctly characterize the autonomous driving process as a sequential combination of perception, prediction, and reasoning steps, and the question-answer pairs are automatically collected from a diverse range of open-source outdoor driving datasets, including nuScenes, Waymo and ONCE. Moreover, we introduce a novel aggregated evaluation metric to assess chain-based reasoning performance in autonomous systems, addressing the semantic ambiguities of existing metrics such as BLEU and CIDEr. Based on the proposed benchmark, we conduct experiments to assess various existing VLMs, revealing insights into their reasoning capabilities. Additionally, we develop an efficient approach to empower VLMs to leverage object-level perceptual elements in both feature extraction and prediction, further enhancing their reasoning accuracy. The code and dataset will be released.
翻訳日:2024-07-12 23:37:48 公開日:2024-07-11
# ブレークする学習:マルチエージェント・ディベートシステムにおける知識強化推論

Learning to Break: Knowledge-Enhanced Reasoning in Multi-Agent Debate System ( http://arxiv.org/abs/2312.04854v2 )

ライセンス: Link先を確認
Haotian Wang, Xiyuan Du, Weijiang Yu, Qianglong Chen, Kun Zhu, Zheng Chu, Lian Yan, Yi Guan, (参考訳) 真理を追求する人間の議論の過程を模倣したマルチエージェント討論システム(MAD)は、最適な解を得るために異なるエージェントの正しい認識を調整することを目的としている。 多様なエージェントが、限られた知識の背景(認知の島々)のために、正しい、高度に一貫した認知をさせることは、最適解の探索を妨げる。 この課題に対処するため,本論文では, 解を見つけるためのシステムを促進するために, \underline{M}ulti-\underline{A}gent \underline{D}ebate with \underline{K}nowledge-\underline{E}nhanced framework (\textbf{MADKE})を提案する。 まず,限定的かつ異なる知識背景の問題を解決するために,議論プロセスにおいて共有検索知識プールが関与する。 そこで我々は,知識の正確性とパーソナライズを保証するための適応的知識選択手法を提案する。 この方法では,各会話ラウンドの外部知識を,それぞれのニーズに応じて選択することができる。 6つのデータセットに対する実験結果から,本手法は既存の単エージェント法やマルチエージェント法と比較して最先端の結果が得られることが示された。 さらに分析した結果, 探索知識の導入は, エージェントが議論の過程で認知島を壊し, モデルの一貫性と正しさを効果的に向上させるのに役立つことがわかった。 さらに,Qwen1.5-72B-Chat を用いたMADKE は GPT-4 を平均 +1.26 % で上回っている。 私たちのコードは \url{https://github.com/FutureForMe/MADKE} で利用可能です。

Multi-agent debate system (MAD) imitating the process of human discussion in pursuit of truth, aims to align the correct cognition of different agents for the optimal solution. It is challenging to make various agents perform right and highly consistent cognition due to their limited and different knowledge backgrounds (i.e., cognitive islands), which hinders the search for the optimal solution. To address the challenge, we propose a novel \underline{M}ulti-\underline{A}gent \underline{D}ebate with \underline{K}nowledge-\underline{E}nhanced framework (\textbf{MADKE}) to promote the system to find the solution. First, we involve a shared retrieval knowledge pool in the debate process to solve the problem of limited and different knowledge backgrounds. Then, we propose an adaptive knowledge selection method to guarantee the accuracy and personalization of knowledge. This method allows agents to choose whether to use external knowledge in each conversation round according to their own needs. Our experimental results on six datasets show that our method achieves state-of-the-art results compared to existing single-agent and multi-agent methods. Further analysis reveals that the introduction of retrieval knowledge can help the agent to break cognitive islands in the debate process and effectively improve the consistency and correctness of the model. Moreover, MADKE using Qwen1.5-72B-Chat surpasses GPT-4 by +1.26\% on average in six datasets, which validates that our method can help open-source LLMs achieve or even surpass the performance of GPT-4. Our code is available at \url{https://github.com/FutureForMe/MADKE}.
翻訳日:2024-07-12 23:37:48 公開日:2024-07-11
# 需要応答イベント下における多層建築物の熱制御のための分散ADMMに基づく深層学習手法

A Distributed ADMM-based Deep Learning Approach for Thermal Control in Multi-Zone Buildings under Demand Response Events ( http://arxiv.org/abs/2312.05073v2 )

ライセンス: Link先を確認
Vincent Taboga, Hanane Dagdougui, (参考訳) 電力利用の増加と、断続的再生可能エネルギー源への依存は、ピーク需要時の電力グリッド管理に挑戦し、需要対応プログラムとエネルギー保全対策が不可欠である。 本研究では,ADMMを用いた分散最適化と深層学習モデルを組み合わせて室内温度設定点を効果的に計画する。 上層に中央建物コーディネータ、熱ゾーン層にローカルコントローラを備えた2層階層構造を用いる。 コーディネーターは、建物の総電力を各ゾーンのローカルパワーターゲットに変換することで、建物の最大電力を制限する必要がある。 ローカルコントローラは、ローカルのパワーターゲットを満たすために温度設定ポイントを変更することができる。 ほとんどのアルゴリズムは中央集権的であるか、あるいは建物の構造に関する事前知識を必要とするが、我々のアプローチは分散しており、完全にデータ駆動である。 提案アルゴリズムは分散計画ネットワーク(Distributed Planning Networks)と呼ばれ、様々なタイプの建物に適応可能かつスケーラブルに設計されており、そのようなシステム開発における主な課題の2つに対処している。 提案手法はEnergyPlusをモデルとした18ゾーンの建物で検証される。 このアルゴリズムは、Demand Responseのピークイベントをうまく管理する。

The increasing electricity use and reliance on intermittent renewable energy sources challenge power grid management during peak demand, making Demand Response programs and energy conservation measures essential. This research combines distributed optimization using ADMM with deep learning models to plan indoor temperature setpoints effectively. A two-layer hierarchical structure is used, with a central building coordinator at the upper layer and local controllers at the thermal zone layer. The coordinator must limit the building's maximum power by translating the building's total power to local power targets for each zone. Local controllers can modify the temperature setpoints to meet the local power targets. While most algorithms are either centralized or require prior knowledge about the building's structure, our approach is distributed and fully data-driven. The proposed algorithm, called Distributed Planning Networks, is designed to be both adaptable and scalable to many types of buildings, tackling two of the main challenges in the development of such systems. The proposed approach is tested on an 18-zone building modeled in EnergyPlus. The algorithm successfully manages Demand Response peak events.
翻訳日:2024-07-12 23:37:48 公開日:2024-07-11
# Intrinsic Avatar:明示的レイトレーシングによる単眼映像からの動的人間の逆レンダリング

IntrinsicAvatar: Physically Based Inverse Rendering of Dynamic Humans from Monocular Videos via Explicit Ray Tracing ( http://arxiv.org/abs/2312.05210v2 )

ライセンス: Link先を確認
Shaofei Wang, Božidar Antić, Andreas Geiger, Siyu Tang, (参考訳) IntrinsicAvatarは、モノクロビデオのみから、幾何学、アルベド、材料、環境照明を含む人間のアバターの本質的な特性を回復するための新しいアプローチである。 近年の人間の神経レンダリングの進歩により、単眼ビデオから高品質な幾何学と外観復元が可能になった。 しかしながら、これらの手法は、アルベド、材料、環境照明などの固有の特性を単一の絡み合った神経表現に焼成する。 一方、単眼ビデオから被服の形状や外見特性を推定する問題に対処する研究はごくわずかである。 通常は、学習したMDPによる二次シェーディング効果の近似により、限られた品質とゆがみを達成する。 本研究では,モンテカルロ線トレーシングによる二次シェーディング効果のモデル化を提案する。 我々は,布を被った人間のレンダリング過程を体積散乱過程としてモデル化し,レイトレーシングと体調を併用する。 提案手法は, 単眼映像から高品質な形状, アルベド, 素材, 照明特性を復元する。 さらに、ボリューム散乱過程とレイトレーシングを明示的にモデル化するため、本モデルは自然に新しいポーズに一般化し、新しい照明条件下で再構成されたアバターのアニメーションを可能にする。

We present IntrinsicAvatar, a novel approach to recovering the intrinsic properties of clothed human avatars including geometry, albedo, material, and environment lighting from only monocular videos. Recent advancements in human-based neural rendering have enabled high-quality geometry and appearance reconstruction of clothed humans from just monocular videos. However, these methods bake intrinsic properties such as albedo, material, and environment lighting into a single entangled neural representation. On the other hand, only a handful of works tackle the problem of estimating geometry and disentangled appearance properties of clothed humans from monocular videos. They usually achieve limited quality and disentanglement due to approximations of secondary shading effects via learned MLPs. In this work, we propose to model secondary shading effects explicitly via Monte-Carlo ray tracing. We model the rendering process of clothed humans as a volumetric scattering process, and combine ray tracing with body articulation. Our approach can recover high-quality geometry, albedo, material, and lighting properties of clothed humans from a single monocular video, without requiring supervised pre-training using ground truth materials. Furthermore, since we explicitly model the volumetric scattering process and ray tracing, our model naturally generalizes to novel poses, enabling animation of the reconstructed avatar in novel lighting conditions.
翻訳日:2024-07-12 23:27:37 公開日:2024-07-11
# スペクトル状態空間モデル

Spectral State Space Models ( http://arxiv.org/abs/2312.06837v4 )

ライセンス: Link先を確認
Naman Agarwal, Daniel Suo, Xinyi Chen, Elad Hazan, (参考訳) 本稿では,長距離依存型予測タスクのシーケンスモデリングについて検討する。 スペクトルフィルタリングアルゴリズム(Hazan et al (2017)) を用いた線形力学系の学習に基づく状態空間モデル(SSM)の新しい定式化を提案する。 これにより、スペクトル状態空間モデルと呼ばれる新しいシーケンス予測アーキテクチャが生まれる。 スペクトル状態空間モデルには2つの大きな利点がある。 第一に、それらの性能は基礎となる力学のスペクトルにも問題の次元性にも依存しないので、証明可能な堅牢性を持つ。 第二に、これらのモデルは学習を必要としない固定畳み込みフィルタで構成され、理論と実践の両方においてSSMよりも優れている。 得られたモデルは、合成力学系と様々なモードの長距離予測タスクに基づいて評価される。 これらの評価は、非常に長い範囲のメモリを必要とするタスクに対するスペクトルフィルタリングの理論的利点を支持する。

This paper studies sequence modeling for prediction tasks with long range dependencies. We propose a new formulation for state space models (SSMs) based on learning linear dynamical systems with the spectral filtering algorithm (Hazan et al. (2017)). This gives rise to a novel sequence prediction architecture we call a spectral state space model. Spectral state space models have two primary advantages. First, they have provable robustness properties as their performance depends on neither the spectrum of the underlying dynamics nor the dimensionality of the problem. Second, these models are constructed with fixed convolutional filters that do not require learning while still outperforming SSMs in both theory and practice. The resulting models are evaluated on synthetic dynamical systems and long-range prediction tasks of various modalities. These evaluations support the theoretical benefits of spectral filtering for tasks requiring very long range memory.
翻訳日:2024-07-12 23:27:37 公開日:2024-07-11
# ロバスト予測のためのクープマンモード分解機能

Featurizing Koopman Mode Decomposition For Robust Forecasting ( http://arxiv.org/abs/2312.09146v4 )

ライセンス: Link先を確認
David Aristoff, Jeremy Copperman, Nathan Mankovich, Alexander Davies, (参考訳) 本稿では、遅延埋め込みと学習したマハラノビス距離を用いて高次元力学系の解析と予測を行う、高度なクープマンモード分解(KMD)技術(Featurized Koopman Mode Decomposition (FKMD))を紹介する。 遅延埋め込みは観測空間を拡張し、基礎となる多様体構造をよりよく捉え、マハラノビス距離は系の力学に基づいて観測を調整する。 これにより、優れた特徴が事前に分かっていない場合に、KMDを偉業するのに役立つ。 FKMDは高次元線形発振器, 部分的に観察される高次元ローレンツ誘引器, およびがん研究からの細胞シグナル伝達問題に対する予測を改善した。

This article introduces an advanced Koopman mode decomposition (KMD) technique -- coined Featurized Koopman Mode Decomposition (FKMD) -- that uses delay embedding and a learned Mahalanobis distance to enhance analysis and prediction of high dimensional dynamical systems. The delay embedding expands the observation space to better capture underlying manifold structure, while the Mahalanobis distance adjusts observations based on the system's dynamics. This aids in featurizing KMD in cases where good features are not a priori known. We show that FKMD improves predictions for a high-dimensional linear oscillator, a high-dimensional Lorenz attractor that is partially observed, and a cell signaling problem from cancer research.
翻訳日:2024-07-12 23:27:37 公開日:2024-07-11
# 医用画像解析におけるノイズ学習におけるノイズレート推定を用いたサンプル選択

Sample selection with noise rate estimation in noise learning of medical image analysis ( http://arxiv.org/abs/2312.15233v2 )

ライセンス: Link先を確認
Maolin Li, Giacomo Tarroni, (参考訳) 医用画像解析の分野では、深層学習モデルは診断精度と効率を向上させることに顕著な成功を収めている。 しかし、これらのモデルの信頼性はトレーニングデータの質に大きく依存しており、医用画像データのラベルノイズ(データセットアノテーションのエラー)の存在は重大な課題である。 本稿では,ノイズの多いデータセットでトレーニングされた場合のニューラルネットワークの性能を向上させる新しいサンプル選択手法を提案する。 本手法では,線形回帰を用いて損失値の分布を解析することにより,データセットの雑音率を推定する。 サンプルは損失値に従ってランク付けされ、潜在的にノイズの多いサンプルはデータセットから除外される。 さらに、スパース正規化を用いて、モデルのノイズ堅牢性をさらに向上する。 提案手法は,5つのベンチマークデータセットと実生活におけるノイズの多い医療画像データセットを用いて評価する。 特に、これらのデータセットのうち2つは、3D医療画像を含んでいる。 実験の結果,提案手法は,特に高雑音率のシナリオにおいて,既存のノイズ障害学習法よりも優れていた。 キーワード:ノイズ・ロバスト学習、医用画像解析、ノイズ率推定、サンプル選択、スパース正規化

In the field of medical image analysis, deep learning models have demonstrated remarkable success in enhancing diagnostic accuracy and efficiency. However, the reliability of these models is heavily dependent on the quality of training data, and the existence of label noise (errors in dataset annotations) of medical image data presents a significant challenge. This paper introduces a new sample selection method that enhances the performance of neural networks when trained on noisy datasets. Our approach features estimating the noise rate of a dataset by analyzing the distribution of loss values using Linear Regression. Samples are then ranked according to their loss values, and potentially noisy samples are excluded from the dataset. Additionally, we employ sparse regularization to further enhance the noise robustness of our model. Our proposed method is evaluated on five benchmark datasets and a real-life noisy medical image dataset. Notably, two of these datasets contain 3D medical images. The results of our experiments show that our method outperforms existing noise-robust learning methods, particularly in scenarios with high noise rates. Key words: noise-robust learning, medical image analysis, noise rate estimation, sample selection, sparse regularization
翻訳日:2024-07-12 23:27:37 公開日:2024-07-11
# Diffusion-EXR: 拡散モデルによる説明可能なレコメンデーションのための制御可能なレビュー生成

Diffusion-EXR: Controllable Review Generation for Explainable Recommendation via Diffusion Models ( http://arxiv.org/abs/2312.15490v3 )

ライセンス: Link先を確認
Ling Li, Shaohua Li, Winda Marantika, Alex C. Kot, Huijing Zhan, (参考訳) Denoising Diffusion Probabilistic Model (DDPM) は画像および音声生成タスクにおいて大きな能力を示している。 しかし、テキスト生成、特にレコメンデーションシステム下でのレビュー生成にDDPMを採用する試みはほとんどない。 推奨項目をよりよく理解し,レコメンデーションシステムの透明性を高める上で,レコメンデーションを正当化する予測されたレコメンデーション説明能力によって,ディフュージョン-EXR と呼ばれる説明可能なレコメンデーションに対するディフュージョンモデルに基づくレビュー生成を提案する。 Diffusion-EXRは、単語埋め込みのシーケンスに様々なレベルのガウスノイズを漸進的に導入することにより、レビュー埋め込みのシーケンスを破損させ、元の単語表現を逆のプロセスで再構築することを学ぶ。 DDPMの特性により、私たちの軽量トランスフォーマーバックボーンはレコメンデーションレビュー生成タスクにおいて優れた性能を発揮する。 大規模な実験結果から、Diffusion-EXRは2つの公開ベンチマークデータセットで推奨される最先端のレビュー生成を達成可能であることが示されている。

Denoising Diffusion Probabilistic Model (DDPM) has shown great competence in image and audio generation tasks. However, there exist few attempts to employ DDPM in the text generation, especially review generation under recommendation systems. Fueled by the predicted reviews explainability that justifies recommendations could assist users better understand the recommended items and increase the transparency of recommendation system, we propose a Diffusion Model-based Review Generation towards EXplainable Recommendation named Diffusion-EXR. Diffusion-EXR corrupts the sequence of review embeddings by incrementally introducing varied levels of Gaussian noise to the sequence of word embeddings and learns to reconstruct the original word representations in the reverse process. The nature of DDPM enables our lightweight Transformer backbone to perform excellently in the recommendation review generation task. Extensive experimental results have demonstrated that Diffusion-EXR can achieve state-of-the-art review generation for recommendation on two publicly available benchmark datasets.
翻訳日:2024-07-12 23:27:37 公開日:2024-07-11
# 全てを規定する1つのモデル:テキストプロンプトを用いた医用画像のユニバーサルセグメンテーションを目指して

One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Prompts ( http://arxiv.org/abs/2312.17183v3 )

ライセンス: Link先を確認
Ziheng Zhao, Yao Zhang, Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie, (参考訳) 本研究では,SATと呼ばれるテキストプロンプトを駆動する放射線学スキャンにおいて,任意のセグメンテーションを生成できるモデルを構築することを目的とする。 主なコントリビューションは3つあります。 そして,72のセグメンテーションデータセットから22K以上の3D画像スキャンを,497のクラスにわたって収集し,画像スキャンとラベル空間の両方を慎重に標準化することで,トレーニングのための最大かつ最も包括的なセグメンテーションデータセットを構築した。 (ii) 建築設計においては, コントラスト学習を通じて医療知識をテキストエンコーダに注入し, テキスト形式で医療用語を入力することにより, 普遍的なセグメンテーションモデルを定式化することを提案する。 その結果、SAT-Nano(110Mパラメータ)とSAT-Pro(447Mパラメータ)をトレーニングし、データセット/サブセット毎にトレーニングされた72の専門家nnU-Netに匹敵する性能を示した。 SATを基本セグメント化モデルとして検証し、外部(見えない)データセットの一般化能力を向上し、微調整適応後の特定のタスクでさらに改善することができる。 MedSAMのようなインタラクティブなセグメンテーションモデルと比較して、テキストによって引き起こされるセグメンテーションモデルは、優れたパフォーマンス、スケーラビリティ、堅牢性を実現する。 症例として,SATは大規模言語モデルのための強力なアウト・オブ・ザ・ボックスエージェントとして機能し,報告生成などの臨床手順における視覚的基盤化を可能にした。 この作業のすべてのデータ、コード、モデルがリリースされた。

In this study, we aim to build up a model that can Segment Anything in radiology scans, driven by Text prompts, termed as SAT. Our main contributions are three folds: (i) for dataset construction, we construct the first multi-modal knowledge tree on human anatomy, including 6502 anatomical terminologies; Then we build up the largest and most comprehensive segmentation dataset for training, by collecting over 22K 3D medical image scans from 72 segmentation datasets, across 497 classes, with careful standardization on both image scans and label space; (ii) for architecture design, we propose to inject medical knowledge into a text encoder via contrastive learning, and then formulate a universal segmentation model, that can be prompted by feeding in medical terminologies in text form; (iii) As a result, we have trained SAT-Nano (110M parameters) and SAT-Pro (447M parameters), demonstrating comparable performance to 72 specialist nnU-Nets trained on each dataset/subsets. We validate SAT as a foundational segmentation model, with better generalization ability on external (unseen) datasets, and can be further improved on specific tasks after fine-tuning adaptation. Comparing with interactive segmentation model, for example, MedSAM, segmentation model prompted by text enables superior performance, scalability and robustness. As a use case, we demonstrate that SAT can act as a powerful out-of-the-box agent for large language models, enabling visual grounding in clinical procedures such as report generation. All the data, codes, and models in this work have been released.
翻訳日:2024-07-12 23:27:37 公開日:2024-07-11
# 解釈型学習による機能的応答をもつメタマテリアルの逆設計

Generative Inverse Design of Metamaterials with Functional Responses by Interpretable Learning ( http://arxiv.org/abs/2401.00003v2 )

ライセンス: Link先を確認
Wei "Wayne" Chen, Rachel Sun, Doksoo Lee, Carlos M. Portela, Wei Chen, (参考訳) 外部刺激下での波動応答や変形誘起特性の変化などの機能的応答を持つメタマテリアルは、異なる条件下での様々な特性や機能を示すことができる。 本稿では,これらのメタマテリアルの迅速な逆設計を目標とした定性的機能的挙動を満たすことを目的とする。 この逆問題は、その難易度と非特異解の存在により困難である。 過去の研究は主に、データオンデマンドで、時間を要するトレーニングとハイパーパラメータチューニングを必要とし、解釈不可能なディープラーニングベースの手法に重点を置いてきた。 これらの制約を克服するために,Random-forest-based Interpretable Generative Inverse Design (RIGID)を提案する。 多くの既存手法とは異なり、ランダムな森の解釈可能性を活用することにより、設計に対する逆モデルマッピング応答をトレーニングする必要がなくなる。 トレーニングされたフォワードモデルから得られた目標満足度の可能性に基づいて、マルコフ連鎖モンテカルロ法を用いて設計ソリューションをサンプリングすることができる。 したがって、RIGID法は、設計対象が与えられた満足解の条件分布をキャプチャする生成モデルとして機能する。 本稿では,RIGIDの音響的および光学的メタマテリアル設計問題に対する有効性と有効性を示す。 合成設計問題は、RIGIDにおける仮説推定のメカニズムをさらに説明し、検証するために作成される。 この研究は、オンデマンドの逆設計問題を解決するための新しい視点を提供し、解釈可能な機械学習を生成設計に組み込む可能性を示し、その大規模なデータ要求を排除している。

Metamaterials with functional responses, such as wave-based responses or deformation-induced property variation under external stimuli, can exhibit varying properties or functionalities under different conditions. Herein, we aim at rapid inverse design of these metamaterials to meet target qualitative functional behaviors. This inverse problem is challenging due to its intractability and the existence of non-unique solutions. Past works mainly focus on deep-learning-based methods that are data-demanding, require time-consuming training and hyperparameter tuning, and are non-interpretable. To overcome these limitations, we propose the Random-forest-based Interpretable Generative Inverse Design (RIGID), an iteration-free, single-shot inverse design method to achieve the fast generation of metamaterial designs with on-demand functional behaviors. Unlike most existing methods, by exploiting the interpretability of the random forest, we eliminate the need to train an inverse model mapping responses to designs. Based on the likelihood of target satisfaction derived from the trained forward model, one can sample design solutions using Markov chain Monte Carlo methods. The RIGID method therefore functions as a generative model that captures the conditional distribution of satisfying solutions given a design target. We demonstrate the effectiveness and efficiency of RIGID on both acoustic and optical metamaterial design problems where only small datasets (less than 250 training samples) are available. Synthetic design problems are created to further illustrate and validate the mechanism of likelihood estimation in RIGID. This work offers a new perspective on solving on-demand inverse design problems, showcasing the potential for incorporating interpretable machine learning into generative design and eliminating its large data requirement.
翻訳日:2024-07-12 23:27:37 公開日:2024-07-11
# Decorrelated Event Classifier Transformer Neural Networkによる重要度学習の試み

Training toward significance with the decorrelated event classifier transformer neural network ( http://arxiv.org/abs/2401.00428v3 )

ライセンス: Link先を確認
Jaebak Kim, (参考訳) 実験粒子物理学では、多くのタスクに機械学習を用いており、ひとつの応用は信号とバックグラウンドイベントの分類である。 この分類は、質量共鳴探索の期待値を高めるために分析領域を結合するために用いられる。 自然言語処理では、主要なニューラルネットワークアーキテクチャの1つがトランスフォーマーである。 本研究では, イベント分類器変換器を用いて解析領域を結合し, ネットワークを特別な手法で訓練する手法を提案する。 ここで開発された技術は、ネットワークの出力と再構成された質量との相関性を高めることができる。 この訓練されたネットワークは、強化された決定木やフィードフォワードネットワークよりも優れた性能を発揮することが判明した。

Experimental particle physics uses machine learning for many tasks, where one application is to classify signal and background events. This classification can be used to bin an analysis region to enhance the expected significance for a mass resonance search. In natural language processing, one of the leading neural network architectures is the transformer. In this work, an event classifier transformer is proposed to bin an analysis region, in which the network is trained with special techniques. The techniques developed here can enhance the significance and reduce the correlation between the network's output and the reconstructed mass. It is found that this trained network can perform better than boosted decision trees and feed-forward networks.
翻訳日:2024-07-12 23:27:37 公開日:2024-07-11
# LLMのLongLM: チューニング不要の自己拡張LDMコンテキストウィンドウ

LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning ( http://arxiv.org/abs/2401.01325v3 )

ライセンス: Link先を確認
Hongye Jin, Xiaotian Han, Jingfeng Yang, Zhimeng Jiang, Zirui Liu, Chia-Yuan Chang, Huiyuan Chen, Xia Hu, (参考訳) LLMはトレーニングシーケンス長よりも長さが大きい長い文脈ではうまく一般化できないことはよく知られている。 これは、推論中に長い入力シーケンスを処理するためにLLMを使用する場合の課題である。 本研究では,LLM自体が,微調整をせずに長いコンテキストを処理できる固有の能力を持っていることを論じる。 この目的を達成するために,両レベルの注意情報を構築することで,LLMのコンテキストウィンドウを拡張するためのSelfExtendを提案する。 グループ化されたアテンションは、遠く離れたトークン間の依存関係をキャプチャし、隣のアテンションは、指定された範囲内の隣のトークン間の依存関係をキャプチャする。 2レベルアテンションは、推論中に元のモデルの自己アテンションメカニズムに基づいて計算される。 マイナーなコード修正によって、SelfExtendは、微調整なしで既存のLLMのコンテキストウィンドウを拡張することができます。 複数のベンチマークで包括的な実験を行い、その結果、既存のLLMのコンテキストウィンドウ長を効果的に拡張できることが示されている。 コードは \url{https://github.com/datamllab/LongLM} で見ることができる。

It is well known that LLMs cannot generalize well to long contexts whose lengths are larger than the training sequence length. This poses challenges when employing LLMs for processing long input sequences during inference. In this work, we argue that LLMs themselves have inherent capabilities to handle long contexts without fine-tuning. To achieve this goal, we propose SelfExtend to extend the context window of LLMs by constructing bi-level attention information: the grouped attention and the neighbor attention. The grouped attention captures the dependencies among tokens that are far apart, while neighbor attention captures dependencies among adjacent tokens within a specified range. The two-level attentions are computed based on the original model's self-attention mechanism during inference. With minor code modification, our SelfExtend can effortlessly extend existing LLMs' context window without any fine-tuning. We conduct comprehensive experiments on multiple benchmarks and the results show that our SelfExtend can effectively extend existing LLMs' context window length. The code can be found at \url{https://github.com/datamllab/LongLM}.
翻訳日:2024-07-12 23:27:37 公開日:2024-07-11
# マルチレベルドメインアライメントによる一般化型睡眠安定度

Generalizable Sleep Staging via Multi-Level Domain Alignment ( http://arxiv.org/abs/2401.05363v4 )

ライセンス: Link先を確認
Jiquan Wang, Sha Zhao, Haiteng Jiang, Shijian Li, Tao Li, Gang Pan, (参考訳) 自動睡眠ステージングは睡眠評価と障害診断に不可欠である。 既存のほとんどのメソッドは、特定のデータセットに依存しており、トレーニングデータとテストデータが同じデータセットから得られる、他の目に見えないデータセットに一般化するように制限されている。 本稿では、自動睡眠ステージングにドメイン一般化を導入し、データセットを表示不能にするためのモデル一般化能力を改善することを目的とした、一般化可能な睡眠ステージングの課題を提案する。 既存の領域一般化手法に着想を得て,機能アライメントの考え方を採用し,SleepDGと呼ばれるフレームワークを提案する。 睡眠時ステージングにおいて局所的な有意な特徴と逐次的な特徴の両方が重要であることを考慮し、エポックレベルとシーケンシャルレベルの特徴アライメントを組み合わせた多段階特徴アライメントを提案し、ドメイン不変の特徴表現を学習する。 具体的には,各ドメイン間の各睡眠時間の特徴分布を一致させるEpochレベルの特徴アライメントと,異なるドメイン間の連続的な特徴の相違を最小限に抑えるシーケンスレベルの特徴アライメントを設計する。 SleepDGは5つの公開データセットで検証され、最先端のパフォーマンスを達成する。

Automatic sleep staging is essential for sleep assessment and disorder diagnosis. Most existing methods depend on one specific dataset and are limited to be generalized to other unseen datasets, for which the training data and testing data are from the same dataset. In this paper, we introduce domain generalization into automatic sleep staging and propose the task of generalizable sleep staging which aims to improve the model generalization ability to unseen datasets. Inspired by existing domain generalization methods, we adopt the feature alignment idea and propose a framework called SleepDG to solve it. Considering both of local salient features and sequential features are important for sleep staging, we propose a Multi-level Feature Alignment combining epoch-level and sequence-level feature alignment to learn domain-invariant feature representations. Specifically, we design an Epoch-level Feature Alignment to align the feature distribution of each single sleep epoch among different domains, and a Sequence-level Feature Alignment to minimize the discrepancy of sequential features among different domains. SleepDG is validated on five public datasets, achieving the state-of-the-art performance.
翻訳日:2024-07-12 23:27:37 公開日:2024-07-11
# 多重量子メモリを用いた非同期量子リピータ

Asynchronous Quantum Repeater using Multiple Quantum Memory ( http://arxiv.org/abs/2401.05732v3 )

ライセンス: Link先を確認
Chen-Long Li. Hua-Lei Yin, Zeng-Bing Chen, (参考訳) 本格的な量子ネットワークは、量子リピータの助けを借りて、遠隔地間の絡み合ったリンクの形成に依存している。 有名なDuan-Lukin-Cirac-Zoller量子リピータプロトコルは、高位相安定性を必要とするだけでなく、最大絡み合った状態を生成することができない長距離単一光子干渉に基づいている。 本稿では,単一光子干渉プロトコルと同じ効率を保ち,位相安定性の要求を低減し,原理的に最大絡み合った状態を生成する,ポストマッチングの概念を用いた量子リピータプロトコルを提案する。 また、Kerr非線形共振器に基づく提案方式の実装について概説する。 シミュレーションにより,提案手法は汎用雑音モデルに基づく既存のプロトコルと比較し,大規模量子通信ネットワークの実現可能性を示す。 私たちの研究は、完全に接続された量子ネットワークの構築に向けた重要な一歩だと信じています。

A full-fledged quantum network relies on the formation of entangled links between remote location with the help of quantum repeaters. The famous Duan-Lukin-Cirac-Zoller quantum repeater protocol is based on long distance single-photon interference, which not only requires high phase stability but also cannot generate maximally entangled state. Here, we propose a quantum repeater protocol using the idea of post-matching, which retains the same efficiency as the single-photon interference protocol, reduces the phase-stability requirement and can generate maximally entangled state in principle. We also outline an implementation of our scheme based on the Kerr nonlinear resonator. Numerical simulations show that our protocol has its superiority by comparing with existing protocols under a generic noise model and show the feasibility of building a large-scale quantum communication network with our scheme. We believe our work represents a crucial step towards the construction of a fully-connected quantum network.
翻訳日:2024-07-12 23:27:37 公開日:2024-07-11
# RSVP-BCI復号化のための主題特化適応型時間スペクトル核融合変換器

A Temporal-Spectral Fusion Transformer with Subject-Specific Adapter for Enhancing RSVP-BCI Decoding ( http://arxiv.org/abs/2401.06340v2 )

ライセンス: Link先を確認
Xujin Li, Wei Wei, Shuang Qiu, Huiguang He, (参考訳) The Rapid Serial Visual Presentation (RSVP)-based Brain-Computer Interface (BCI) は脳波(EEG)信号を用いたターゲット検索のための効率的な技術である。 従来の復号法の性能改善は、BCIシステムの準備時間を増加させる新しい被験者のトレーニングデータに大きく依存している。 いくつかの研究は、既存の被験者のデータを導入して、新しい被験者のデータに対するパフォーマンス改善の依存を減らすが、その最適化戦略は、幅広いデータによる敵の学習に基づいて、準備過程のトレーニング時間を増加させる。 さらに,従来の手法では脳波信号の単一ビュー情報のみに焦点が当てられていたが,他のビューからの情報は無視され,性能がさらに向上する可能性がある。 準備時間を短縮しつつデコード性能を向上させるため,被験者固有アダプタ (TSformer-SA) を用いた時間スペクトル融合トランスを提案する。 具体的には,脳波の時間的信号と分光画像から抽出した2視点特徴から情報伝達と共通表現の抽出を容易にするために,クロスビューインタラクションモジュールを提案する。 次に、注意に基づく融合モジュールが2つのビューの特徴を融合させ、分類のための包括的な識別的特徴を得る。 さらに、同一の脳波信号の2つのビュー間の特徴的類似性を最大化するために、多視点整合損失を提案する。 最後に,既存の対象データから学習したモデルの知識を高速に伝達し,新たな対象データからデコードする対象特化アダプタを提案する。 実験の結果,TSformer-SAは比較法を著しく上回り,新しい被験者の限られたトレーニングデータで優れた性能を発揮することがわかった。 これにより、効率的な復号化とBCIシステムの実用的迅速な展開が容易になる。

The Rapid Serial Visual Presentation (RSVP)-based Brain-Computer Interface (BCI) is an efficient technology for target retrieval using electroencephalography (EEG) signals. The performance improvement of traditional decoding methods relies on a substantial amount of training data from new test subjects, which increases preparation time for BCI systems. Several studies introduce data from existing subjects to reduce the dependence of performance improvement on data from new subjects, but their optimization strategy based on adversarial learning with extensive data increases training time during the preparation procedure. Moreover, most previous methods only focus on the single-view information of EEG signals, but ignore the information from other views which may further improve performance. To enhance decoding performance while reducing preparation time, we propose a Temporal-Spectral fusion transformer with Subject-specific Adapter (TSformer-SA). Specifically, a cross-view interaction module is proposed to facilitate information transfer and extract common representations across two-view features extracted from EEG temporal signals and spectrogram images. Then, an attention-based fusion module fuses the features of two views to obtain comprehensive discriminative features for classification. Furthermore, a multi-view consistency loss is proposed to maximize the feature similarity between two views of the same EEG signal. Finally, we propose a subject-specific adapter to rapidly transfer the knowledge of the model trained on data from existing subjects to decode data from new subjects. Experimental results show that TSformer-SA significantly outperforms comparison methods and achieves outstanding performance with limited training data from new subjects. This facilitates efficient decoding and rapid deployment of BCI systems in practical use.
翻訳日:2024-07-12 23:27:37 公開日:2024-07-11
# 量子生成拡散モデル:量子状態アンサンブル生成のための完全量子力学モデル

Quantum Generative Diffusion Model: A Fully Quantum-Mechanical Model for Generating Quantum State Ensemble ( http://arxiv.org/abs/2401.07039v3 )

ライセンス: Link先を確認
Chuangtao Chen, Qinglin Zhao, MengChu Zhou, Zhimin He, Zhili Sun, Haozhen Situ, (参考訳) 古典的な拡散モデルは優れた生成結果を示している。 量子領域でそれらを探索することは、量子生成学習の分野を前進させる可能性がある。 この研究は、単純でエレガントな量子対向体として量子生成拡散モデル(QGDM)を導入している。 非単体フォワードプロセスにより、任意の標的量子状態は、システムに関する最も高いエントロピーと最大の不確実性を持つ完全に混合状態に変換することができる。 トレーニング可能な後方プロセスを使用して、後者から前者を回復する。 後方プロセスの設計要件には、非ユニタリティと小さなパラメータカウントが含まれる。 パラメータ共有戦略を用い,時間情報を入力として後進プロセスに組み込むことにより,非単元演算を導入し,トレーニング可能なパラメータの数を減らし,部分トレース処理を導入する。 生成能力を保ちながら補助量子ビットを削減するため,QGDMの資源効率向上版を提案する。 QGDMは量子生成逆数ネットワーク(QGAN)よりも高速な収束を示す。 QGANと比較した結果、純量子状態と混合量子状態の両方を生成する効果が示された。 混合状態発生ではQGANよりも53.02%高い忠実性が得られる。 その結果は、量子生成タスクに挑戦する大きな可能性を浮き彫りにした。

Classical diffusion models have shown superior generative results. Exploring them in the quantum domain can advance the field of quantum generative learning. This work introduces Quantum Generative Diffusion Model (QGDM) as their simple and elegant quantum counterpart. Through a non-unitary forward process, any target quantum state can be transformed into a completely mixed state that has the highest entropy and maximum uncertainty about the system. A trainable backward process is used to recover the former from the latter. The design requirements for its backward process includes non-unitarity and small parameter count. We introduce partial trace operations to enforce non-unitary and reduce the number of trainable parameters by using a parameter-sharing strategy and incorporating temporal information as an input in the backward process. We present QGDM's resource-efficient version to reduce auxiliary qubits while preserving generative capabilities. QGDM exhibits faster convergence than Quantum Generative Adversarial Network (QGAN) because its adopted convex-based optimization can result in faster convergence. The results of comparing it with QGAN demonstrate its effectiveness in generating both pure and mixed quantum states. It can achieve 53.02% higher fidelity in mixed-state generation than QGAN. The results highlight its great potential to tackle challenging quantum generation tasks.
翻訳日:2024-07-12 23:27:37 公開日:2024-07-11
# マルコフ雑音による確率近似と強化学習のODE法

The ODE Method for Stochastic Approximation and Reinforcement Learning with Markovian Noise ( http://arxiv.org/abs/2401.07844v5 )

ライセンス: Link先を確認
Shuze Liu, Shuhang Chen, Shangtong Zhang, (参考訳) 確率近似(Stochastic approximation)は、ベクトルを反復的に、漸進的に、確率的に更新するアルゴリズムのクラスである。 確率近似アルゴリズムを解析する基本的な課題の1つは、その安定性、すなわち確率ベクトル反復がほぼ確実に有界であることを示すことである。 本稿では,マルティンゲール差音設定からマルコフ雑音設定への安定性に関するボルカール・メインの定理を拡張し,特に線形関数近似と可視性トレースを持つ非線形強化学習アルゴリズムにおける強化学習への適用性を大幅に向上させる。 我々の分析の中心は、少数の函数の変化の漸近速度の減少であり、これは大数の強い法則の形式とよく使われるV4リャプノフドリフト条件の両方によって示唆され、マルコフ鎖が有限で既約であれば自明に成り立つ。

Stochastic approximation is a class of algorithms that update a vector iteratively, incrementally, and stochastically, including, e.g., stochastic gradient descent and temporal difference learning. One fundamental challenge in analyzing a stochastic approximation algorithm is to establish its stability, i.e., to show that the stochastic vector iterates are bounded almost surely. In this paper, we extend the celebrated Borkar-Meyn theorem for stability from the Martingale difference noise setting to the Markovian noise setting, which greatly improves its applicability in reinforcement learning, especially in those off-policy reinforcement learning algorithms with linear function approximation and eligibility traces. Central to our analysis is the diminishing asymptotic rate of change of a few functions, which is implied by both a form of strong law of large numbers and a commonly used V4 Lyapunov drift condition and trivially holds if the Markov chain is finite and irreducible.
翻訳日:2024-07-12 23:27:37 公開日:2024-07-11
# モダリティの欠如を考慮したマルチモーダル感性分析:知識伝達アプローチ

Multimodal Sentiment Analysis with Missing Modality: A Knowledge-Transfer Approach ( http://arxiv.org/abs/2401.10747v3 )

ライセンス: Link先を確認
Weide Liu, Huijing Zhan, Hao Chen, Fengmao Lv, (参考訳) マルチモーダル感情分析は、視覚的、言語的、音響的手がかりを通じて、個人が表現する感情を特定することを目的としている。 しかし、既存の研究努力の多くは、全てのモダリティはトレーニングとテストの両方で利用可能であり、そのアルゴリズムが欠落したモダリティシナリオに影響を受けやすいと仮定している。 本稿では,欠落した音声のモーダルを再構築するために,異なるモーダル間の翻訳を行う新しいナレッジ・トランスファーネットワークを提案する。 さらに,再建および観察されたモダリティの最大情報を保持するために,モダリティ間注意機構を開発し,感情予測を行う。 公開されている3つのデータセットに対する大規模な実験は、ベースラインよりも大幅に改善され、完全なマルチモダリティ監視を備えた以前の方法に匹敵する結果が得られた。

Multimodal sentiment analysis aims to identify the emotions expressed by individuals through visual, language, and acoustic cues. However, most of the existing research efforts assume that all modalities are available during both training and testing, making their algorithms susceptible to the missing modality scenario. In this paper, we propose a novel knowledge-transfer network to translate between different modalities to reconstruct the missing audio modalities. Moreover, we develop a cross-modality attention mechanism to retain the maximal information of the reconstructed and observed modalities for sentiment prediction. Extensive experiments on three publicly available datasets demonstrate significant improvements over baselines and achieve comparable results to the previous methods with complete multi-modality supervision.
翻訳日:2024-07-12 23:27:37 公開日:2024-07-11
# 集合上のマスケプ粒子モデリング:自己超越した高エネルギー物理基礎モデルに向けて

Masked Particle Modeling on Sets: Towards Self-Supervised High Energy Physics Foundation Models ( http://arxiv.org/abs/2401.13537v3 )

ライセンス: Link先を確認
Tobias Golling, Lukas Heinrich, Michael Kagan, Samuel Klein, Matthew Leigh, Margarita Osadchy, John Andrew Raine, (参考訳) 本研究では,高エネルギー物理(HEP)科学データに用いた非順序入力の汎用的,転送可能,再利用可能な表現を自己指導的に学習する手法として,マスク粒子モデリング(MPM)を提案する。 この研究は、集合上の置換不変関数を学習するために、マスク付きモデリングに基づく事前学習を実行する新しいスキームを提供する。 より一般的に、この研究は、HEPのための大規模な基礎モデルを構築するためのステップを提供する。 MPMでは、予め訓練されたベクトル量子化変分オートエンコーダの離散化トークン表現によって定義されるように、集合内の粒子をマスクし、トレーニング目的がそれらのアイデンティティを回復することである。 本研究では,コライダー物理実験における高エネルギージェットの試料における方法の有効性について検討し,離散化の影響,変分不変性,順序付けなどについて検討した。 また,モデルの微調整能力について検討し,教師付きジェット分類や弱教師付きジェット分類などのタスクに適応可能であること,また,小型の微調整データセットを新しいクラスや新しいデータドメインに効率よく移行できること,などを示した。

We propose masked particle modeling (MPM) as a self-supervised method for learning generic, transferable, and reusable representations on unordered sets of inputs for use in high energy physics (HEP) scientific data. This work provides a novel scheme to perform masked modeling based pre-training to learn permutation invariant functions on sets. More generally, this work provides a step towards building large foundation models for HEP that can be generically pre-trained with self-supervised learning and later fine-tuned for a variety of down-stream tasks. In MPM, particles in a set are masked and the training objective is to recover their identity, as defined by a discretized token representation of a pre-trained vector quantized variational autoencoder. We study the efficacy of the method in samples of high energy jets at collider physics experiments, including studies on the impact of discretization, permutation invariance, and ordering. We also study the fine-tuning capability of the model, showing that it can be adapted to tasks such as supervised and weakly supervised jet classification, and that the model can transfer efficiently with small fine-tuning data sets to new classes and new data domains.
翻訳日:2024-07-12 23:17:39 公開日:2024-07-11
# 任意スケールの病理画像スーパーレゾリューションに向けて: インシシト自己テクスチャ強化による効率的なデュアルブランチフレームワーク

Towards Arbitrary-Scale Histopathology Image Super-resolution: An Efficient Dual-branch Framework via Implicit Self-texture Enhancement ( http://arxiv.org/abs/2401.15613v5 )

ライセンス: Link先を確認
Minghong Duan, Linhao Qu, Zhiwei Yang, Manning Wang, Chenxi Zhang, Zhijian Song, (参考訳) 高品質な全スライディングスキャナーは高価で複雑で時間を要するため、日常臨床における高解像度の病理画像の取得と利用が制限される。 低分解能画像から高分解能画像を合成することにより、深層学習に基づく単一画像の超解像技術がこの問題の解決に有効な方法である。 しかし、病理画像に適用された既存の超解像モデルは、固定整数倍率でしか機能せず、適用性が著しく低下する。 暗黙的な神経表現に基づく手法は、自然画像の任意のスケールの超解像において有望な結果を示しているが、それを病理画像に直接適用することは、自然画像とは異なる独特の微細な画像テクスチャを持つため、不十分である。 そこで本研究では,この課題に対処するために,任意の規模の病理像の超解像を実現するためのImplicit Self-Texture Enhancement-based dual-branch framework (ISTE)を提案する。 ISTEには、まずピクセルの特徴とテクスチャの特徴を学習するテクスチャ学習ブランチと、画素学習ブランチが含まれている。 そして、2段階のテクスチャ強化戦略を設計し、2段階のテクスチャを融合させて超解像結果を得る。 3つの公開データセットに対する大規模な実験によると、ISTEは既存の固定スケールおよび任意のスケールのアルゴリズムを複数の倍率で上回り、下流タスクのパフォーマンスを向上させる。 我々の知る限りでは、病理画像における任意のスケールの超解像を実現するための最初の試みである。 コードは利用可能。

High-quality whole-slide scanners are expensive, complex, and time-consuming, thus limiting the acquisition and utilization of high-resolution pathology whole-slide images in daily clinical work. Deep learning-based single-image super-resolution techniques are an effective way to solve this problem by synthesizing high-resolution images from low-resolution ones. However, the existing super-resolution models applied in pathology images can only work in fixed integer magnifications, significantly decreasing their applicability. Though methods based on implicit neural representation have shown promising results in arbitrary-scale super-resolution of natural images, applying them directly to pathology images is inadequate because they have unique fine-grained image textures different from natural images. Thus, we propose an Implicit Self-Texture Enhancement-based dual-branch framework (ISTE) for arbitrary-scale super-resolution of pathology images to address this challenge. ISTE contains a pixel learning branch and a texture learning branch, which first learn pixel features and texture features, respectively. Then, we design a two-stage texture enhancement strategy to fuse the features from the two branches to obtain the super-resolution results, where the first stage is feature-based texture enhancement, and the second stage is spatial-domain-based texture enhancement. Extensive experiments on three public datasets show that ISTE outperforms existing fixed-scale and arbitrary-scale algorithms at multiple magnifications and helps to improve downstream task performance. To the best of our knowledge, this is the first work to achieve arbitrary-scale super-resolution in pathology images. Codes will be available.
翻訳日:2024-07-12 23:17:39 公開日:2024-07-11
# パラ言語的表現は音声感情認識に必要か?

Are Paralinguistic Representations all that is needed for Speech Emotion Recognition? ( http://arxiv.org/abs/2402.01579v2 )

ライセンス: Link先を確認
Orchid Chetia Phukan, Gautam Siddharth Kashyap, Arun Balaji Buduru, Rajesh Sharma, (参考訳) 事前訓練されたモデル(PTM)からの表現の可用性は、音声感情認識(SER)の大幅な進歩を助長している。 特に、パラ言語音声処理のために訓練されたPTMの表現は、SERの最先端(SOTA)性能を示している。 しかし、英語以外の言語環境において、これらのパラ言語的PTM表現はSERでは評価されていない。 また、SUPERB、EMO-SUPERB、ML-SUPERB for SERなどのベンチマークではパラ言語的PTM表現は研究されていない。 これにより、複数の言語におけるSERに対するパラ言語的PTM表現の有効性へのアクセスが困難になる。 このギャップを埋めるために、我々は5つのSOTA PTM表現の総合的な比較研究を行う。 この結果から, パラ言語的PTM(TRILLsson)表現は, ピッチ, トーン, その他の音声特性が他のPTM表現よりも効果的に表現できることが示唆された。

Availability of representations from pre-trained models (PTMs) have facilitated substantial progress in speech emotion recognition (SER). Particularly, representations from PTM trained for paralinguistic speech processing have shown state-of-the-art (SOTA) performance for SER. However, such paralinguistic PTM representations haven't been evaluated for SER in linguistic environments other than English. Also, paralinguistic PTM representations haven't been investigated in benchmarks such as SUPERB, EMO-SUPERB, ML-SUPERB for SER. This makes it difficult to access the efficacy of paralinguistic PTM representations for SER in multiple languages. To fill this gap, we perform a comprehensive comparative study of five SOTA PTM representations. Our results shows that paralinguistic PTM (TRILLsson) representations performs the best and this performance can be attributed to its effectiveness in capturing pitch, tone and other speech characteristics more effectively than other PTM representations.
翻訳日:2024-07-12 23:17:39 公開日:2024-07-11
# 還元量子位相推定

Reductive Quantum Phase Estimation ( http://arxiv.org/abs/2402.04471v4 )

ライセンス: Link先を確認
Nicholas J. C. Papadopoulos, Jarrod T. Reilly, John Drew Wilson, Murray J. Holland, (参考訳) 量子相の推定は、幅広い分野の量子科学において必要となる課題である。 この課題を達成するために、原子物理学と分子物理学におけるラムゼイ干渉計(RI)と量子コンピューティングにおける量子位相推定(QPE)という、2つのよく知られた手法が異なる文脈で開発された。 これらの例は、還元量子位相推定(RQPE)回路と呼ばれる、より大規模な位相推定プロトコルの例であることを示す。 ここでは、RQPE回路を作成できる明示的なアルゴリズムを提案する。 この回路は、より少ない量子ビットとユニタリな応用を持つ任意の位相の集合を区別し、RIとQPEが属する一般的な量子仮説テストのクラスを解く。 さらに、測定精度と位相差の相違を実証し、特定の用途に最適な回路を調整できるようにする。

Estimating a quantum phase is a necessary task in a wide range of fields of quantum science. To accomplish this task, two well-known methods have been developed in distinct contexts, namely, Ramsey interferometry (RI) in atomic and molecular physics and quantum phase estimation (QPE) in quantum computing. We demonstrate that these canonical examples are instances of a larger class of phase estimation protocols, which we call reductive quantum phase estimation (RQPE) circuits. Here we present an explicit algorithm that allows one to create an RQPE circuit. This circuit distinguishes an arbitrary set of phases with a fewer number of qubits and unitary applications, thereby solving a general class of quantum hypothesis testing to which RI and QPE belong. We further demonstrate a trade-off between measurement precision and phase distinguishability, which allows one to tune the circuit to be optimal for a specific application.
翻訳日:2024-07-12 23:17:39 公開日:2024-07-11
# 予測表現:知性のブロックの構築

Predictive representations: building blocks of intelligence ( http://arxiv.org/abs/2402.06590v3 )

ライセンス: Link先を確認
Wilka Carvalho, Momchil S. Tomov, William de Cothi, Caswell Barry, Samuel J. Gershman, (参考訳) 適応的な振る舞いは、しばしば将来のイベントを予測する必要がある。 強化学習の理論は、どのような予測表現が有用か、どのように計算するかを規定している。 本稿では、これらの理論概念を認知と神経科学の研究と統合する。 我々は、後継表現(SR)とその一般化に特に注意を払っており、工学ツールや脳機能のモデルとして広く適用されてきた。 この収束は、特定の種類の予測表現が多目的な知性の構成要素として機能することを示唆している。

Adaptive behavior often requires predicting future events. The theory of reinforcement learning prescribes what kinds of predictive representations are useful and how to compute them. This paper integrates these theoretical ideas with work on cognition and neuroscience. We pay special attention to the successor representation (SR) and its generalizations, which have been widely applied both as engineering tools and models of brain function. This convergence suggests that particular kinds of predictive representations may function as versatile building blocks of intelligence.
翻訳日:2024-07-12 23:17:39 公開日:2024-07-11
# 調整識別距離:因果構造学習のためのギャジッド

Adjustment Identification Distance: A gadjid for Causal Structure Learning ( http://arxiv.org/abs/2402.08616v2 )

ライセンス: Link先を確認
Leonard Henckel, Theo Würtzen, Sebastian Weichwald, (参考訳) 因果探索アルゴリズムによって学習されたグラフの評価は困難である: 2つのグラフ間で異なるエッジの数は、因果効果を示唆する公式の特定に関してグラフがどのように異なるかを反映していない。 本稿では,有向非巡回グラフの構造的介入距離を含むグラフ間の因果距離を開発するためのフレームワークを提案する。 このフレームワークを用いて、改良された調整ベース距離と、部分的に有向な非巡回グラフと因果順序の拡張を開発する。 距離を効率よく計算し、多項式時間の複雑さを証明するための新しい到達性アルゴリズムを開発した。 我々のパッケージgadjid(https://github.com/CausalDisco/gadjidのオープンソース)では、我々の距離の実装を提供しています。

Evaluating graphs learned by causal discovery algorithms is difficult: The number of edges that differ between two graphs does not reflect how the graphs differ with respect to the identifying formulas they suggest for causal effects. We introduce a framework for developing causal distances between graphs which includes the structural intervention distance for directed acyclic graphs as a special case. We use this framework to develop improved adjustment-based distances as well as extensions to completed partially directed acyclic graphs and causal orders. We develop new reachability algorithms to compute the distances efficiently and to prove their low polynomial time complexity. In our package gadjid (open source at https://github.com/CausalDisco/gadjid), we provide implementations of our distances; they are orders of magnitude faster with proven lower time complexity than the structural intervention distance and thereby provide a success metric for causal discovery that scales to graph sizes that were previously prohibitive.
翻訳日:2024-07-12 23:17:39 公開日:2024-07-11
# NeuroIDBench:脳波ベースの認証研究における方法論の標準化のためのオープンソースのベンチマークフレームワーク

NeuroIDBench: An Open-Source Benchmark Framework for the Standardization of Methodology in Brainwave-based Authentication Research ( http://arxiv.org/abs/2402.08656v5 )

ライセンス: Link先を確認
Avinash Kumar Chaurasia, Matin Fallahi, Thorsten Strufe, Philipp Terhörst, Patricia Arias Cabarcos, (参考訳) 脳活動に基づく生体認証システムは、パスワードに代わるものや、現在の認証技術を補完するものとして提案されている。 個人の独自の脳波パターンを活用することで、これらのシステムは盗難に抵抗し、ハンズフリーでアクセス可能で、さらには取り消しも可能な認証ソリューションを作成することができる。 しかし、この分野では研究の流れが拡大しているにもかかわらず、再現性の問題によって急速な進歩が妨げられている。 パフォーマンス結果やシステム構成に関する標準的な報告スキームの欠如や、一般的な評価ベンチマークの欠如といった問題により、様々なバイオメトリックソリューションのコンパラビリティと適切な評価が困難になる。 さらに、ソースコードが公開されていない場合、バリアは将来の作業のために構築される。 このギャップを埋めるために、脳波ベースの認証モデルをベンチマークする柔軟なオープンソースツールであるNeuroIDBenchを紹介します。 9つの多様なデータセットが組み込まれ、包括的な前処理パラメータと機械学習アルゴリズムを実装し、2つの共通の敵モデル(既知の攻撃者対未知の攻撃者)下でのテストを可能にし、研究者が完全なパフォーマンスレポートと視覚化を生成することができる。 我々はNeuroIDBenchを用いて,本論文で提案されている浅層分類器と深層学習に基づくアプローチを調査し,複数のセッションで堅牢性をテストする。 我々は、未知の攻撃シナリオ(典型的には文献ではテストされていない)に対して、37.6%のEER(Equal Error Rate)の削減を観察し、脳波認証におけるセッション変動の重要性を強調した。 総じて,我々は,アルゴリズムの公正比較を合理化する上で,NeuroIDBenchの有効性と妥当性を実証し,堅牢な方法論的手法による脳波認証の進歩を推し進めた。

Biometric systems based on brain activity have been proposed as an alternative to passwords or to complement current authentication techniques. By leveraging the unique brainwave patterns of individuals, these systems offer the possibility of creating authentication solutions that are resistant to theft, hands-free, accessible, and potentially even revocable. However, despite the growing stream of research in this area, faster advance is hindered by reproducibility problems. Issues such as the lack of standard reporting schemes for performance results and system configuration, or the absence of common evaluation benchmarks, make comparability and proper assessment of different biometric solutions challenging. Further, barriers are erected to future work when, as so often, source code is not published open access. To bridge this gap, we introduce NeuroIDBench, a flexible open source tool to benchmark brainwave-based authentication models. It incorporates nine diverse datasets, implements a comprehensive set of pre-processing parameters and machine learning algorithms, enables testing under two common adversary models (known vs unknown attacker), and allows researchers to generate full performance reports and visualizations. We use NeuroIDBench to investigate the shallow classifiers and deep learning-based approaches proposed in the literature, and to test robustness across multiple sessions. We observe a 37.6% reduction in Equal Error Rate (EER) for unknown attacker scenarios (typically not tested in the literature), and we highlight the importance of session variability to brainwave authentication. All in all, our results demonstrate the viability and relevance of NeuroIDBench in streamlining fair comparisons of algorithms, thereby furthering the advancement of brainwave-based authentication through robust methodological practices.
翻訳日:2024-07-12 23:17:39 公開日:2024-07-11
# 意識的エキゾチックとしてのシミュラクラ

Simulacra as Conscious Exotica ( http://arxiv.org/abs/2402.12422v2 )

ライセンス: Link先を確認
Murray Shanahan, (参考訳) 人間的な振る舞いが増す会話エージェントの出現は、古い哲学的な疑問を新たな光に投げつける。 人間の行動の「単なる」シミュラクラであると同時に、それらが行うことは「単なる」ロールプレイと見ることができることを考えると、意識の観点から生成言語モデルから構築されたAIエージェントについて話すことは理にかなっているだろうか? ウィトゲンシュタインの後の著作に基づき、この論文は双対的思考の落とし穴を避けながらこの問題に取り組む。

The advent of conversational agents with increasingly human-like behaviour throws old philosophical questions into new light. Does it, or could it, ever make sense to speak of AI agents built out of generative language models in terms of consciousness, given that they are "mere" simulacra of human behaviour, and that what they do can be seen as "merely" role play? Drawing on the later writings of Wittgenstein, this paper attempts to tackle this question while avoiding the pitfalls of dualistic thinking.
翻訳日:2024-07-12 23:17:39 公開日:2024-07-11
# BeTAIL: 人間のレーシングゲームプレイによる行動変換器逆転模倣学習

BeTAIL: Behavior Transformer Adversarial Imitation Learning from Human Racing Gameplay ( http://arxiv.org/abs/2402.14194v2 )

ライセンス: Link先を確認
Catherine Weaver, Chen Tang, Ce Hao, Kenta Kawamoto, Masayoshi Tomizuka, Wei Zhan, (参考訳) 模倣学習は、手作りの報酬関数を必要とせずに、デモンストレーションからポリシーを学ぶ。 自律レースのような多くのロボットタスクでは、模倣されたポリシーは複雑な環境力学と人間の意思決定をモデル化する必要がある。 シーケンスモデリングは、複雑な動きのパターンを捉えるのに非常に効果的であるが、現実のロボット工学のタスクで一般的な新しい環境や分布の変化に適応するのに苦労する。 対照的に、AIL(Adversarial Imitation Learning)は、この効果を緩和することができるが、サンプルの非効率性と複雑な動きパターンの扱いに苦慮している。 そこで我々は,BeTAIL: Behavior Transformer Adversarial Imitation Learningを提案する。 BeTAILは、BeTポリシーにAIL残留ポリシーを追加し、人間の専門家のシーケンシャルな意思決定プロセスをモデル化し、環境力学におけるアウト・オブ・ディストリビューション状態やシフトを正す。 我々は,Gran Turismo Sportにおけるリアルヒューマンゲームプレイのエキスパートレベルのデモンストレーションで,BeTAILを3つの課題でテストした。 提案する残留BeTAILは,下流学習と異なるトラック上でBeTを事前学習した場合であっても,環境相互作用を低減し,レース性能と安定性を向上させる。 ビデオとコードは、https://sites.google.com/berkeley.edu/BeTAIL/home.comで公開されている。

Imitation learning learns a policy from demonstrations without requiring hand-designed reward functions. In many robotic tasks, such as autonomous racing, imitated policies must model complex environment dynamics and human decision-making. Sequence modeling is highly effective in capturing intricate patterns of motion sequences but struggles to adapt to new environments or distribution shifts that are common in real-world robotics tasks. In contrast, Adversarial Imitation Learning (AIL) can mitigate this effect, but struggles with sample inefficiency and handling complex motion patterns. Thus, we propose BeTAIL: Behavior Transformer Adversarial Imitation Learning, which combines a Behavior Transformer (BeT) policy from human demonstrations with online AIL. BeTAIL adds an AIL residual policy to the BeT policy to model the sequential decision-making process of human experts and correct for out-of-distribution states or shifts in environment dynamics. We test BeTAIL on three challenges with expert-level demonstrations of real human gameplay in Gran Turismo Sport. Our proposed residual BeTAIL reduces environment interactions and improves racing performance and stability, even when the BeT is pretrained on different tracks than downstream learning. Videos and code available at: https://sites.google.com/berkeley.edu/BeTAIL/home.
翻訳日:2024-07-12 23:17:39 公開日:2024-07-11
# トップクォーク崩壊のフル量子トモグラフィー

Full quantum tomography of top quark decays ( http://arxiv.org/abs/2402.14725v2 )

ライセンス: Link先を確認
J. A. Aguilar-Saavedra, (参考訳) 高エネルギー物理過程における量子トモグラフィは通常、スピン自由度に制限されている。 トップクォーク崩壊が$t \to W b$であり、軌道角運動量(L$)と$W$と$b$のスピンが54次元の$LWb$密度作用素に絡み合う。 L$と$W$または$b$のスピンの間の絡み合いは大きいので、ラン2のデータを持つ大型ハドロン衝突型加速器で生成された1つのトップクォークの崩壊について決定することができる。 統計的、体系的な不確実性により、その重要性は$L$-$W$絡み合いの分離可能性仮説から$5\sigma$、$L$-$b$の$3.2\sigma$よりはるかに大きい。 これらは高エネルギー物理学における軌道とスピン角モーメントの間の最初の絡み合い測定である。 同様に、L$と2つのスピンの間の真の三部構造は5\sigma$以上で成立できる。 提案手法は、他のプロセスで同様の測定を行う方法を示す。

Quantum tomography in high-energy physics processes has usually been restricted to the spin degrees of freedom. We address the case of top quark decays $t \to W b$, in which the orbital angular momentum ($L$) and the spins of $W$ and $b$ are intertwined into a 54-dimensional $LWb$ density operator. The entanglement between $L$ and the $W$ or $b$ spin is large and could be determined for decays of single top quarks produced at the Large Hadron Collider with Run 2 data. With the foreseen statistical and systematic uncertainties, the significance is well above $5\sigma$ from the separability hypothesis for $L$-$W$ entanglement, and $3.2\sigma$ for $L$-$b$. These would be the first entanglement measurements between orbital and spin angular momenta in high-energy physics. Likewise, the genuine tripartite entanglement between $L$ and the two spins could be established with more than $5\sigma$. The method presented paves the way for similar measurements in other processes.
翻訳日:2024-07-12 23:17:39 公開日:2024-07-11
# A Consensus-based Multi-Agent System for Text-to-SQL Tasks

$R^3$: "This is My SQL, Are You With Me?" A Consensus-Based Multi-Agent System for Text-to-SQL Tasks ( http://arxiv.org/abs/2402.14851v2 )

ライセンス: Link先を確認
Hanchen Xia, Feng Jiang, Naihao Deng, Cunxiang Wang, Guojiang Zhao, Rada Mihalcea, Yue Zhang, (参考訳) 大規模言語モデル(LLM)は、様々なタスクにおいて強力なパフォーマンスを示している。 Text-to-SQLタスクのパワーを解放するために、コンセンサスベースのText-to-SQLタスク用マルチエージェントシステムである$R^3$(Review-Rebuttal-Revision)を提案する。 R^3$ は、既存の LLM Text-to-SQL システム、およびマルチエージェント Text-to-SQL システムよりも1.3\%$から8.1\%$ 高い。 意外なことに、Llama-3-8Bでは、$R^3$は20倍以上のチェーン・オブ・シークレットを上回り、スパイダーの開発セットではGPT-3.5よりも優れていた。

Large Language Models (LLMs) have demonstrated strong performance on various tasks. To unleash their power on the Text-to-SQL task, we propose $R^3$ (Review-Rebuttal-Revision), a consensus-based multi-agent system for Text-to-SQL tasks. $R^3$ outperforms the existing single LLM Text-to-SQL systems as well as the multi-agent Text-to-SQL systems by $1.3\%$ to $8.1\%$ on Spider and Bird. Surprisingly, we find that for Llama-3-8B, $R^3$ outperforms chain-of-thought prompting by over 20\%, even outperforming GPT-3.5 on the development set of Spider.
翻訳日:2024-07-12 23:17:39 公開日:2024-07-11
# スクラッチから始めるな:補間剤による政策拡散による行動的リファインメント

Don't Start from Scratch: Behavioral Refinement via Interpolant-based Policy Diffusion ( http://arxiv.org/abs/2402.16075v4 )

ライセンス: Link先を確認
Kaiqi Chen, Eugene Lim, Kelvin Lin, Yiyang Chen, Harold Soh, (参考訳) 模倣学習は、人工エージェントがデモンストレーションから学ぶことによって、行動の模倣を促進する。 近年,高次元およびマルチモーダル分布をモデル化できる拡散モデルが,模倣学習タスクにおいて顕著な性能を示した。 これらのモデルは、標準ガウスノイズから作用(あるいは状態)を拡散することでポリシーを形成することを学ぶ。 しかし、学習対象の方針はガウスとは大きく異なり、このミスマッチは、少数の拡散ステップ(推論速度を改善するために)を使用し、限られたデータの下では性能が低下する可能性がある。 この研究における鍵となる考え方は、ガウシアンよりも情報的な情報源から開始することで、上記の制限を緩和する拡散法が可能であるということである。 提案手法は,情報ソースポリシーの利点を示す理論的結果,新しい方法,実証的な知見の両方に寄与する。 我々の手法はBRIDGERと呼ばれ、確率補間フレームワークを利用して任意のポリシーをブリッジし、模倣学習への柔軟なアプローチを可能にする。 これは、標準ガウスがまだ適用可能であるという事前の作業を一般化するが、他のソースポリシーが利用可能であれば利用できる。 課題のあるシミュレーションベンチマークや実際のロボットの実験では、BRIDGERは最先端の拡散ポリシーより優れている。 BRIDGERを適用する際の設計上の考慮事項についてさらに分析する。 BRIDGERのコードはhttps://github.com/clear-nus/bridger.comで公開されている。

Imitation learning empowers artificial agents to mimic behavior by learning from demonstrations. Recently, diffusion models, which have the ability to model high-dimensional and multimodal distributions, have shown impressive performance on imitation learning tasks. These models learn to shape a policy by diffusing actions (or states) from standard Gaussian noise. However, the target policy to be learned is often significantly different from Gaussian and this mismatch can result in poor performance when using a small number of diffusion steps (to improve inference speed) and under limited data. The key idea in this work is that initiating from a more informative source than Gaussian enables diffusion methods to mitigate the above limitations. We contribute both theoretical results, a new method, and empirical findings that show the benefits of using an informative source policy. Our method, which we call BRIDGER, leverages the stochastic interpolants framework to bridge arbitrary policies, thus enabling a flexible approach towards imitation learning. It generalizes prior work in that standard Gaussians can still be applied, but other source policies can be used if available. In experiments on challenging simulation benchmarks and on real robots, BRIDGER outperforms state-of-the-art diffusion policies. We provide further analysis on design considerations when applying BRIDGER. Code for BRIDGER is available at https://github.com/clear-nus/bridger.
翻訳日:2024-07-12 23:17:39 公開日:2024-07-11
# アルゴリズム問題におけるGPT-4のベンチマーク:プロンプト戦略の体系的評価

Benchmarking GPT-4 on Algorithmic Problems: A Systematic Evaluation of Prompting Strategies ( http://arxiv.org/abs/2402.17396v2 )

ライセンス: Link先を確認
Flavio Petruzzellis, Alberto Testolin, Alessandro Sperduti, (参考訳) 大規模言語モデル(LLM)は、さまざまな下流タスクにおいて大量のテキストコーパスで得られた知識を、最小限の(もしあれば)チューニングステップで再利用する能力によって、自然言語処理の分野に革命をもたらした。 同時に、LLMには体系的な一般化が欠如していることが繰り返し示されており、学習された統計正則をトレーニング分布の外へ外挿することができる。 本研究では、2つのパラメータで問題の難易度を制御できることを特徴とする3つのアルゴリズム的タスクに対して、最も先進的なLCMの1つであるGPT-4の系統的ベンチマークを行う。 我々は、GPT-4の性能を前身(GPT-3.5)の性能と比較し、最近導入されたTransformer-Encoderアーキテクチャの変種であるNeural Data Routerと比較した。 先進的なプロンプト技術の導入により、GPT-4は全てのタスクにおいてより優れた精度を達成でき、最先端のLCMが体系的な一般化を必要とする課題においても非常に強力なベースラインとなることを示す。

Large Language Models (LLMs) have revolutionized the field of Natural Language Processing thanks to their ability to reuse knowledge acquired on massive text corpora on a wide variety of downstream tasks, with minimal (if any) tuning steps. At the same time, it has been repeatedly shown that LLMs lack systematic generalization, which allows to extrapolate the learned statistical regularities outside the training distribution. In this work, we offer a systematic benchmarking of GPT-4, one of the most advanced LLMs available, on three algorithmic tasks characterized by the possibility to control the problem difficulty with two parameters. We compare the performance of GPT-4 with that of its predecessor (GPT-3.5) and with a variant of the Transformer-Encoder architecture recently introduced to solve similar tasks, the Neural Data Router. We find that the deployment of advanced prompting techniques allows GPT-4 to reach superior accuracy on all tasks, demonstrating that state-of-the-art LLMs constitute a very strong baseline also in challenging tasks that require systematic generalization.
翻訳日:2024-07-12 23:07:33 公開日:2024-07-11
# 視覚言語モデルのためのマルチモーダル属性プロンプト

Multi-modal Attribute Prompting for Vision-Language Models ( http://arxiv.org/abs/2403.00219v3 )

ライセンス: Link先を確認
Xin Liu, Jiamin Wu, and Wenfei Yang, Xu Zhou, Tianzhu Zhang, (参考訳) CLIPと同様、トレーニング済みのVision-Language Models (VLM)は、ダウンストリームタスクに対して強力な一般化能力を示すが、数ショットシナリオでは苦労する。 既存のプロンプト技術は主にグローバルテキストと画像表現に重点を置いているが、マルチモーダル属性の特徴を見落としている。 この制限は、モデルがきめ細かな視覚的詳細を知覚する能力を妨げ、その一般化能力をより広範囲の未確認クラスに制限する。 この問題を解決するために,テキスト属性プロンプト,視覚属性プロンプト,属性レベルのアライメントを共同で探索し,マルチモーダル属性プロンプト法(MAP)を提案する。 提案されたMAPにはいくつかのメリットがある。 まず、テキスト属性セマンティクスによって強化された学習可能な視覚属性プロンプトを導入し、未知のカテゴリから画像の視覚属性を適応的にキャプチャし、CLIPのきめ細かい視覚知覚能力を高める。 第二に、提案した属性レベルのアライメントはグローバルアライメントを補完し、オープンボキャブラリオブジェクトに対するクロスモーダルアライメントのロバスト性を高める。 私たちの知る限り、これはCLIPベースの少数ショット適応のためのクロスモーダル属性レベルのアライメントを確立する最初の作業です。 11個のデータセットに対する大規模な実験結果から,本手法は最先端のアプローチに対して良好に動作することが示された。

Pre-trained Vision-Language Models (VLMs), like CLIP, exhibit strong generalization ability to downstream tasks but struggle in few-shot scenarios. Existing prompting techniques primarily focus on global text and image representations, yet overlooking multi-modal attribute characteristics. This limitation hinders the model's ability to perceive fine-grained visual details and restricts its generalization ability to a broader range of unseen classes. To address this issue, we propose a Multi-modal Attribute Prompting method (MAP) by jointly exploring textual attribute prompting, visual attribute prompting, and attribute-level alignment. The proposed MAP enjoys several merits. First, we introduce learnable visual attribute prompts enhanced by textual attribute semantics to adaptively capture visual attributes for images from unknown categories, boosting fine-grained visual perception capabilities for CLIP. Second, the proposed attribute-level alignment complements the global alignment to enhance the robustness of cross-modal alignment for open-vocabulary objects. To our knowledge, this is the first work to establish cross-modal attribute-level alignment for CLIP-based few-shot adaptation. Extensive experimental results on 11 datasets demonstrate that our method performs favorably against state-of-the-art approaches.
翻訳日:2024-07-12 23:07:33 公開日:2024-07-11
# ゾンビは理解できないか? マシン認知の1年間の進化的探索

Do Zombies Understand? A Choose-Your-Own-Adventure Exploration of Machine Cognition ( http://arxiv.org/abs/2403.00499v2 )

ライセンス: Link先を確認
Ariel Goldstein, Gabriel Stanovsky, (参考訳) LLMの最近の進歩は、それらがテキストを理解するかどうかについての議論を引き起こしている。 本論文では,この議論の反対者は,理解する上での異なる定義を持ち,特に意識の役割に対する見解が異なっていることを論じる。 この主張を裏付けるために,オープンソースのチャットボットである$Z$が,主観的な経験を伴わずに,可能なすべてのベンチマークに優れる思考実験を提案する。 我々は、Z$が理解できるかどうかを問うとともに、初歩的なAI研究における異なる思考の流派が、この疑問に異なる答えを見せ、彼らの用語的不一致を明らかにする。 今後,意識の問題を明確に認識し,哲学,心理学,神経科学の豊富な文献と結びつく2つの作業的定義を提案する。

Recent advances in LLMs have sparked a debate on whether they understand text. In this position paper, we argue that opponents in this debate hold different definitions for understanding, and particularly differ in their view on the role of consciousness. To substantiate this claim, we propose a thought experiment involving an open-source chatbot $Z$ which excels on every possible benchmark, seemingly without subjective experience. We ask whether $Z$ is capable of understanding, and show that different schools of thought within seminal AI research seem to answer this question differently, uncovering their terminological disagreement. Moving forward, we propose two distinct working definitions for understanding which explicitly acknowledge the question of consciousness, and draw connections with a rich literature in philosophy, psychology and neuroscience.
翻訳日:2024-07-12 23:07:33 公開日:2024-07-11
# 分散ニューラルネットワークにおけるエントロピーモデルのレジリエンス

Resilience of Entropy Model in Distributed Neural Networks ( http://arxiv.org/abs/2403.00942v2 )

ライセンス: Link先を確認
Milin Zhang, Mohammad Abdi, Shahriar Rifat, Francesco Restuccia, (参考訳) エッジコンピューティングシステムのパフォーマンスを犠牲にすることなく、通信オーバーヘッドを低減するための重要な技術として、分散ディープニューラルネットワーク(DNN)が登場した。 近年,通信オーバーヘッドを軽減するためにエントロピー符号化が導入されている。 鍵となるアイデアは、分散DNNをエントロピーモデルと共同でトレーニングすることであり、これは推論時間中にサイド情報として使われ、遅延表現を可変長ビットストリームに適応的にエンコードする。 我々の知る限りでは、エントロピーモデルのレジリエンスについてはまだ研究されていない。 そこで本稿では,エントロピーモデルが意図的干渉(例えば,敵対的攻撃)や意図的干渉(例えば,天候変化や動きのぼかし)に対するレジリエンスを定式化し,検討する。 3つの異なるDNNアーキテクチャ、2つのエントロピーモデル、4つのレート歪曲トレードオフ因子による広範な実験的キャンペーンを通じて、エントロピー攻撃は通信オーバーヘッドを最大95%増加させることができることを示した。 周波数領域と空間領域における圧縮特性を分離することにより,攻撃入力の送信オーバーヘッドを約9%削減できる新しい防御機構を提案する。 提案する防御機構は, 対人訓練などの手法と併用して, 強靭性の向上を図る, 独立的なアプローチである。 コードは再現性のために共有されます。

Distributed deep neural networks (DNNs) have emerged as a key technique to reduce communication overhead without sacrificing performance in edge computing systems. Recently, entropy coding has been introduced to further reduce the communication overhead. The key idea is to train the distributed DNN jointly with an entropy model, which is used as side information during inference time to adaptively encode latent representations into bit streams with variable length. To the best of our knowledge, the resilience of entropy models is yet to be investigated. As such, in this paper we formulate and investigate the resilience of entropy models to intentional interference (e.g., adversarial attacks) and unintentional interference (e.g., weather changes and motion blur). Through an extensive experimental campaign with 3 different DNN architectures, 2 entropy models and 4 rate-distortion trade-off factors, we demonstrate that the entropy attacks can increase the communication overhead by up to 95%. By separating compression features in frequency and spatial domain, we propose a new defense mechanism that can reduce the transmission overhead of the attacked input by about 9% compared to unperturbed data, with only about 2% accuracy loss. Importantly, the proposed defense mechanism is a standalone approach which can be applied in conjunction with approaches such as adversarial training to further improve robustness. Code will be shared for reproducibility.
翻訳日:2024-07-12 23:07:33 公開日:2024-07-11
# マイニング問題トラッカー:概念と技術

Mining Issue Trackers: Concepts and Techniques ( http://arxiv.org/abs/2403.05716v2 )

ライセンス: Link先を確認
Lloyd Montgomery, Clara Lüders, Walid Maalej, (参考訳) 課題追跡ツールは、組織がユーザと対話し、ソフトウェア開発ライフサイクルのさまざまな側面を管理するために使用するソフトウェアツールである。 アジャイル方法論の台頭とともに、イシュートラッカはオープンでクローズドな設定でも人気を集めています。 内部および外部ステークホルダーは、要求やメンテナンスタスクなどの異なる情報を表す「問題」を報告し、管理し、議論する。 問題トラッカーはすぐに複雑なエコシステムになり、数十のプロジェクト、数百のユーザ、数千のイシュー、そしてしばしば数百万のイシュー進化がある。 タスクに関連する問題を見つけて理解し、概要を維持することは、時間とともに難しくなります。 さらに、さまざまなプロジェクトのためのイシューワークフローの管理は、組織が成長するにつれて難しくなり、より多くの利害関係者が関与するようになる。 これらの問題に対処するために、ソフトウェアと要求工学の研究は、マイニング問題追跡データに基づく自動化技術を提案する。 問題トラッカーにおける大量のテキストデータを考えると、これらの技術の多くは自然言語処理を活用している。 本章では、問題トラッカーにおける情報の複雑さと不均一性を利害関係者に支援するために、問題データをアルゴリズムで分析する4つの主要なユースケースについて論じる。 この章には、JupyterNotebooksによる後続のデモパッケージが付属している。

An issue tracker is a software tool used by organisations to interact with users and manage various aspects of the software development lifecycle. With the rise of agile methodologies, issue trackers have become popular in open and closed-source settings alike. Internal and external stakeholders report, manage, and discuss "issues", which represent different information such as requirements and maintenance tasks. Issue trackers can quickly become complex ecosystems, with dozens of projects, hundreds of users, thousands of issues, and often millions of issue evolutions. Finding and understanding the relevant issues for the task at hand and keeping an overview becomes difficult with time. Moreover, managing issue workflows for diverse projects becomes more difficult as organisations grow, and more stakeholders get involved. To help address these difficulties, software and requirements engineering research have suggested automated techniques based on mining issue tracking data. Given the vast amount of textual data in issue trackers, many of these techniques leverage natural language processing. This chapter discusses four major use cases for algorithmically analysing issue data to assist stakeholders with the complexity and heterogeneity of information in issue trackers. The chapter is accompanied by a follow-along demonstration package with JupyterNotebooks.
翻訳日:2024-07-12 23:07:33 公開日:2024-07-11
# 腫瘍病変セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・モデル

Mask-Enhanced Segment Anything Model for Tumor Lesion Semantic Segmentation ( http://arxiv.org/abs/2403.05912v2 )

ライセンス: Link先を確認
Hairong Shi, Songhao Han, Shaofei Huang, Yue Liao, Guanbin Li, Xiangxing Kong, Hua Zhu, Xiaomu Wang, Si Liu, (参考訳) CTやMRI画像上の腫瘍病変の断片化は、がんの診断と治療計画において重要な役割を担っている。 様々な医用画像モダリティや機器にまたがる腫瘍病変のセグメンテーションデータに固有の差異を考慮すると、SAM(Segment Anything Model)に医療知識を統合することは、その汎用性と一般化の可能性から、有望な能力を示す。 近年の研究では、大規模医療セグメンテーションデータセットの事前トレーニングにより、SAMを医療的専門知識で強化しようと試みている。 しかし, 腫瘍の複雑化と前頭および背景領域の不均衡により, 3次元の腫瘍病変セグメンテーションにはまだ課題が残っている。 そこで本研究では, 3D 腫瘍病変の分節化に適した斬新なアーキテクチャである Mask-Enhanced SAM (M-SAM) を紹介する。 本稿では,M-SAM内におけるMask-Enhanced Adapter(MEA)を提案する。これは,粗いセグメンテーションマスクからの位置データを用いて医用画像のセグメンテーション情報を強化し,より正確なセグメンテーションマスクの作成を容易にする。 さらに, M-SAMに繰り返し改良方式を実装し, セグメンテーションマスクを徐々に改良し, 性能が向上した。 7つの腫瘍病変セグメンテーションデータセットの大規模な実験は、我々のM-SAMは高いセグメンテーション精度を達成するだけでなく、堅牢な一般化も示している。 コードはhttps://github.com/nanase1025/M-SAMで公開されている。

Tumor lesion segmentation on CT or MRI images plays a critical role in cancer diagnosis and treatment planning. Considering the inherent differences in tumor lesion segmentation data across various medical imaging modalities and equipment, integrating medical knowledge into the Segment Anything Model (SAM) presents promising capability due to its versatility and generalization potential. Recent studies have attempted to enhance SAM with medical expertise by pre-training on large-scale medical segmentation datasets. However, challenges still exist in 3D tumor lesion segmentation owing to tumor complexity and the imbalance in foreground and background regions. Therefore, we introduce Mask-Enhanced SAM (M-SAM), an innovative architecture tailored for 3D tumor lesion segmentation. We propose a novel Mask-Enhanced Adapter (MEA) within M-SAM that enriches the semantic information of medical images with positional data from coarse segmentation masks, facilitating the generation of more precise segmentation masks. Furthermore, an iterative refinement scheme is implemented in M-SAM to refine the segmentation masks progressively, leading to improved performance. Extensive experiments on seven tumor lesion segmentation datasets indicate that our M-SAM not only achieves high segmentation accuracy but also exhibits robust generalization. The code is available at https://github.com/nanase1025/M-SAM.
翻訳日:2024-07-12 23:07:33 公開日:2024-07-11
# PreSight:都市規模のNeRFプリミティブによる自動運転車の認識向上

PreSight: Enhancing Autonomous Vehicle Perception with City-Scale NeRF Priors ( http://arxiv.org/abs/2403.09079v2 )

ライセンス: Link先を確認
Tianyuan Yuan, Yucheng Mao, Jiawei Yang, Yicheng Liu, Yue Wang, Hang Zhao, (参考訳) 自動運転車は周囲をナビゲートし解釈するために認識システムに大きく依存している。 最近のシステムでは大きな進歩があったが、排他的、極端な照明、不慣れな都市部といった条件下では課題が続いている。 これらのシステムとは異なり、人間は環境を知覚する瞬間的な観察にのみ依存するわけではない。 新しい都市をナビゲートする際、人間は徐々に、その後の訪問中にリアルタイムの知覚を補うための予備的なメンタルマップを開発していく。 このような人間的アプローチにインスパイアされたPreSightは、過去のトラバーサルを利用して静的な事前記憶を構築し、後続のナビゲーションにおけるオンライン認識を高める新しいフレームワークである。 提案手法では, 都市規模のニューラルレージアンスフィールドを, 過去の旅行データで最適化し, ニューラル先行データを生成する。 これらの先行は意味論と幾何学的詳細に富み、手動のアノテーションなしで導出され、様々な最先端の知覚モデルをシームレスに拡張し、最小限の計算コストで有効性を向上させることができる。 nuScenesデータセットの実験結果は、様々なオンライン知覚モデルとの高い互換性を示す。 具体的には、HDマップの構築と占有予測タスクの大幅な改善を示し、自動運転システムの新しい認識フレームワークとしての可能性を強調している。 私たちのコードはhttps://github.com/yuantianyuan01/PreSight.com/でリリースされます。

Autonomous vehicles rely extensively on perception systems to navigate and interpret their surroundings. Despite significant advancements in these systems recently, challenges persist under conditions like occlusion, extreme lighting, or in unfamiliar urban areas. Unlike these systems, humans do not solely depend on immediate observations to perceive the environment. In navigating new cities, humans gradually develop a preliminary mental map to supplement real-time perception during subsequent visits. Inspired by this human approach, we introduce a novel framework, PreSight, that leverages past traversals to construct static prior memories, enhancing online perception in later navigations. Our method involves optimizing a city-scale neural radiance field with data from previous journeys to generate neural priors. These priors, rich in semantic and geometric details, are derived without manual annotations and can seamlessly augment various state-of-the-art perception models, improving their efficacy with minimal additional computational cost. Experimental results on the nuScenes dataset demonstrate the framework's high compatibility with diverse online perception models. Specifically, it shows remarkable improvements in HD-map construction and occupancy prediction tasks, highlighting its potential as a new perception framework for autonomous driving systems. Our code will be released at https://github.com/yuantianyuan01/PreSight.
翻訳日:2024-07-12 23:07:33 公開日:2024-07-11
# GazeMotion: Gazeに誘導された人間のモーション予測

GazeMotion: Gaze-guided Human Motion Forecasting ( http://arxiv.org/abs/2403.09885v2 )

ライセンス: Link先を確認
Zhiming Hu, Syn Schmitt, Daniel Haeufle, Andreas Bulling, (参考訳) 本稿では、過去の人間のポーズ情報と人間の目視情報を組み合わせた、人間の動き予測の新しい手法であるGazeMotionを紹介する。 人間の目と身体の動きが密接に調整されていることを示す行動科学のエビデンスにインスパイアされたGazeMotionは、まず過去の視線から将来の視線を予測し、その後予測された将来の視線と過去のポーズを視線のグラフに融合し、最後に身体の動きを予測するための残差グラフ畳み込みネットワークを使用する。 提案手法をMoGaze, ADT, GIMOベンチマークデータセット上で広範囲に評価し, 接合位置誤差あたりの平均値が7.4%向上していることを示す。 本手法は, 視線をプロキシとして用いながら, 平均5.5%の精度向上を実現している。 また,本手法は,知覚リアリズムの観点からも先行手法よりも優れていることを示すオンラインユーザスタディを報告した。 これらの結果から,人間の動き予測のための視線で利用可能な重要な情報内容と,この情報を活用する方法の有効性が示された。

We present GazeMotion, a novel method for human motion forecasting that combines information on past human poses with human eye gaze. Inspired by evidence from behavioural sciences showing that human eye and body movements are closely coordinated, GazeMotion first predicts future eye gaze from past gaze, then fuses predicted future gaze and past poses into a gaze-pose graph, and finally uses a residual graph convolutional network to forecast body motion. We extensively evaluate our method on the MoGaze, ADT, and GIMO benchmark datasets and show that it outperforms state-of-the-art methods by up to 7.4% improvement in mean per joint position error. Using head direction as a proxy to gaze, our method still achieves an average improvement of 5.5%. We finally report an online user study showing that our method also outperforms prior methods in terms of perceived realism. These results show the significant information content available in eye gaze for human motion forecasting as well as the effectiveness of our method in exploiting this information.
翻訳日:2024-07-12 23:07:33 公開日:2024-07-11
# テスト時間適応のための効率よい拡散駆動型破壊エディタ

Efficient Diffusion-Driven Corruption Editor for Test-Time Adaptation ( http://arxiv.org/abs/2403.10911v3 )

ライセンス: Link先を確認
Yeongtak Oh, Jonghyun Lee, Jooyoung Choi, Dahuin Jung, Uiwon Hwang, Sungroh Yoon, (参考訳) テスト時間適応(TTA)は、テスト時間中に発生する予期せぬ分散シフトに対処する。 TTAでは、パフォーマンス、メモリ消費、時間消費が重要な考慮事項である。 最近の拡散ベースの画像復元のためのTTAアプローチには、画像レベルの更新が含まれる。 しかし, 画素空間拡散を用いた場合, 従来のモデル更新TTA手法に比べて資源要求が大幅に増加し, TTA法としての限界が明らかとなった。 そこで本研究では,遅延拡散モデル(LDM)に基づく画像編集モデルを利用した新しいTTA手法を提案する。 このスキームは、(クリーンで、破損した)イメージペアを作成し、破損した画像をクリーンなものに微調整することによって、拡散モデルの分散シフトに対する堅牢性を高める。 さらに,4つのネットワーク関数評価(NFE)のみを用いた汚職編集モデルの高速化を目的とした蒸留変種を提案する。 画像ドメインやビデオドメインを含むさまざまなアーキテクチャやデータセットに対して,我々の手法を広範囲に検証した。 我々のモデルは拡散ベースベースラインよりも100倍高速なランタイムで最高の性能を達成する。 さらに、データ拡張を利用した以前のモデル更新TTA法よりも3倍高速で、画像レベルの更新アプローチがより実現可能である。

Test-time adaptation (TTA) addresses the unforeseen distribution shifts occurring during test time. In TTA, performance, memory consumption, and time consumption are crucial considerations. A recent diffusion-based TTA approach for restoring corrupted images involves image-level updates. However, using pixel space diffusion significantly increases resource requirements compared to conventional model updating TTA approaches, revealing limitations as a TTA method. To address this, we propose a novel TTA method that leverages an image editing model based on a latent diffusion model (LDM) and fine-tunes it using our newly introduced corruption modeling scheme. This scheme enhances the robustness of the diffusion model against distribution shifts by creating (clean, corrupted) image pairs and fine-tuning the model to edit corrupted images into clean ones. Moreover, we introduce a distilled variant to accelerate the model for corruption editing using only 4 network function evaluations (NFEs). We extensively validated our method across various architectures and datasets including image and video domains. Our model achieves the best performance with a 100 times faster runtime than that of a diffusion-based baseline. Furthermore, it is three times faster than the previous model updating TTA method that utilizes data augmentation, making an image-level updating approach more feasible.
翻訳日:2024-07-12 23:07:32 公開日:2024-07-11
# LoRA-Composer:学習自由拡散モデルにおけるマルチコンセプトカスタマイズのための低ランク適応の活用

LoRA-Composer: Leveraging Low-Rank Adaptation for Multi-Concept Customization in Training-Free Diffusion Models ( http://arxiv.org/abs/2403.11627v2 )

ライセンス: Link先を確認
Yang Yang, Wen Wang, Liang Peng, Chaotian Song, Yao Chen, Hengjia Li, Xiaolong Yang, Qinglin Lu, Deng Cai, Boxi Wu, Wei Liu, (参考訳) カスタマイズ生成技術は、さまざまなコンテキストにまたがる特定の概念の合成を著しく進歩させてきた。 ドメイン内の課題として、マルチコンセプトのカスタマイズが登場します。 既存のアプローチでは、複数のローランド適応(LoRA)の融合行列をトレーニングして、さまざまな概念をひとつのイメージにマージすることが多い。 しかし、この簡単な方法は2つの大きな課題に直面している。 1)モデルが個々の特徴の保存に苦しむ概念的混乱 2) モデルが意図した主題を生成するのに失敗する概念が消滅する。 これらの問題に対処するために,複数のLoRAをシームレスに統合するトレーニングフリーフレームワークであるLoRA-Composerを導入する。 LoRA-Composerはコンセプトインジェクションの制約によって消滅する概念に対処し、拡張されたクロスアテンションメカニズムを通じて概念の可視性を高める。 概念混乱に対処するため、概念分離制約を導入し、自己注意計算を精査する。 さらに, 特定領域における概念特異的潜伏を効果的に刺激するために, 潜伏再初期化を提案する。 我々の広範囲なテストでは、標準ベースラインと比較してLoRA-Composerの性能が顕著に向上しており、特にキャニーエッジやポーズ推定のような画像ベースの条件を排除している。 コードは \url{https://github.com/Young98CN/LoRA_Composer} でリリースされる。

Customization generation techniques have significantly advanced the synthesis of specific concepts across varied contexts. Multi-concept customization emerges as the challenging task within this domain. Existing approaches often rely on training a fusion matrix of multiple Low-Rank Adaptations (LoRAs) to merge various concepts into a single image. However, we identify this straightforward method faces two major challenges: 1) concept confusion, where the model struggles to preserve distinct individual characteristics, and 2) concept vanishing, where the model fails to generate the intended subjects. To address these issues, we introduce LoRA-Composer, a training-free framework designed for seamlessly integrating multiple LoRAs, thereby enhancing the harmony among different concepts within generated images. LoRA-Composer addresses concept vanishing through concept injection constraints, enhancing concept visibility via an expanded cross-attention mechanism. To combat concept confusion, concept isolation constraints are introduced, refining the self-attention computation. Furthermore, latent re-initialization is proposed to effectively stimulate concept-specific latent within designated regions. Our extensive testing showcases a notable enhancement in LoRA-Composer's performance compared to standard baselines, especially when eliminating the image-based conditions like canny edge or pose estimations. Code is released at \url{https://github.com/Young98CN/LoRA_Composer}
翻訳日:2024-07-12 23:07:32 公開日:2024-07-11
# カメラローカライゼーションのためのニューラルボリュームポーズ特徴の学習

Learning Neural Volumetric Pose Features for Camera Localization ( http://arxiv.org/abs/2403.12800v3 )

ライセンス: Link先を確認
Jingyu Lin, Jiaqi Gu, Bojian Wu, Lubin Fan, Renjie Chen, Ligang Liu, Jieping Ye, (参考訳) 本稿では,PoseMapと呼ばれるニューラルボリュームポーズ機能を導入し,画像と関連するカメラポーズの情報をカプセル化することで,カメラのローカライゼーションを強化する。 我々のフレームワークは、拡張されたNeRFモジュールとともにAPR(Absolute Pose Regression)アーキテクチャを活用している。 この統合は、トレーニングデータセットを豊かにする新しいビューの生成を促進するだけでなく、効果的なポーズ特徴の学習も可能にする。 さらに、自己教師付きオンラインアライメントのためのアーキテクチャを拡張し、統合されたフレームワーク内で、未実装の画像に対してメソッドを使用および微調整できるようにします。 室内および屋外のベンチマークシーンで平均14.28%, 20.51%の性能向上が得られた。

We introduce a novel neural volumetric pose feature, termed PoseMap, designed to enhance camera localization by encapsulating the information between images and the associated camera poses. Our framework leverages an Absolute Pose Regression (APR) architecture, together with an augmented NeRF module. This integration not only facilitates the generation of novel views to enrich the training dataset but also enables the learning of effective pose features. Additionally, we extend our architecture for self-supervised online alignment, allowing our method to be used and fine-tuned for unlabelled images within a unified framework. Experiments demonstrate that our method achieves 14.28% and 20.51% performance gain on average in indoor and outdoor benchmark scenes, outperforming existing APR methods with state-of-the-art accuracy.
翻訳日:2024-07-12 23:07:32 公開日:2024-07-11
# Portrait4D-v2: Pseudo Multi-View Dataが4Dヘッドシンセサイザーを改良

Portrait4D-v2: Pseudo Multi-View Data Creates Better 4D Head Synthesizer ( http://arxiv.org/abs/2403.13570v2 )

ライセンス: Link先を確認
Yu Deng, Duomin Wang, Baoyuan Wang, (参考訳) 本稿では,フィードフォワードワンショット4Dヘッドアバター合成のための新しい学習手法を提案する。 3DMMでガイドされた単眼ビデオの再構成からしばしば学習する既存の方法とは異なり、擬似多眼ビデオを用いてデータ駆動方式で4Dヘッドシンセサイザーを学習し、合成性能に悪影響を及ぼす不正確な3DMM再構成への依存を避ける。 鍵となるアイデアは、まず合成多視点画像を用いて3Dヘッドシンセサイザーを学習し、モノクラー・リアルビデオをマルチビューに変換し、続いて擬似多視点ビデオを使用して4Dヘッドシンセサイザーをクロスビュー自己再現により学習することである。 本手法は、単純な視覚変換器のバックボーンとモーション対応のクロスアテンションを活用することで、従来の手法と比較して、再現率、幾何整合性、動き制御精度において優れた性能を示す。 提案手法は,4次元頭部アバターの創出を改善するために,3次元前駆体と2次元監督体を一体化するための新たな知見を提供する。

In this paper, we propose a novel learning approach for feed-forward one-shot 4D head avatar synthesis. Different from existing methods that often learn from reconstructing monocular videos guided by 3DMM, we employ pseudo multi-view videos to learn a 4D head synthesizer in a data-driven manner, avoiding reliance on inaccurate 3DMM reconstruction that could be detrimental to the synthesis performance. The key idea is to first learn a 3D head synthesizer using synthetic multi-view images to convert monocular real videos into multi-view ones, and then utilize the pseudo multi-view videos to learn a 4D head synthesizer via cross-view self-reenactment. By leveraging a simple vision transformer backbone with motion-aware cross-attentions, our method exhibits superior performance compared to previous methods in terms of reconstruction fidelity, geometry consistency, and motion control accuracy. We hope our method offers novel insights into integrating 3D priors with 2D supervisions for improved 4D head avatar creation.
翻訳日:2024-07-12 22:57:45 公開日:2024-07-11
# UP-FacE: ユーザー予測可能なきめ細かい顔の形状編集

UP-FacE: User-predictable Fine-grained Face Shape Editing ( http://arxiv.org/abs/2403.13972v3 )

ライセンス: Link先を確認
Florian Strohm, Mihai Bâce, Andreas Bulling, (参考訳) ユーザ予測可能な顔編集(UP-FacE)を提案する。 試行錯誤による既存の顔編集法とは対照的に、UP-FacEによる編集は人間の手で予測可能である。 すなわち、ユーザーは所望の変化度を正確に、決定的に制御でき、ある編集結果を達成するのに必要な変更量を前もって知ることができる。 本手法は顔の特徴量を正確に測定するために顔のランドマークを活用し,手動でアノテートした属性ラベルを使わずにUP-FacEのトレーニングを容易にする。 UP-FacEのコアは、事前訓練された生成モデルと顔の特徴埋め込みから潜伏ベクトルを入力として、適切な操作ベクトルを予測するトランスフォーマーベースのネットワークである。 ユーザ予測可能な編集を可能にするため、スケーリング層は操作ベクトルを調整し、正確な所望の変化度を達成する。 非相関な特徴を変化させることなく、所望の特徴が目標値に向けて操作されることを保証するため、新たな意味的顔の特徴損失を導入する。 定性的かつ定量的な結果は、UP-FacEが23の顔形状の特徴を正確にきめ細かな制御を可能にすることを示している。

We present User-predictable Face Editing (UP-FacE) -- a novel method for predictable face shape editing. In stark contrast to existing methods for face editing using trial and error, edits with UP-FacE are predictable by the human user. That is, users can control the desired degree of change precisely and deterministically and know upfront the amount of change required to achieve a certain editing result. Our method leverages facial landmarks to precisely measure facial feature values, facilitating the training of UP-FacE without manually annotated attribute labels. At the core of UP-FacE is a transformer-based network that takes as input a latent vector from a pre-trained generative model and a facial feature embedding, and predicts a suitable manipulation vector. To enable user-predictable editing, a scaling layer adjusts the manipulation vector to achieve the precise desired degree of change. To ensure that the desired feature is manipulated towards the target value without altering uncorrelated features, we further introduce a novel semantic face feature loss. Qualitative and quantitative results demonstrate that UP-FacE enables precise and fine-grained control over 23 face shape features.
翻訳日:2024-07-12 22:57:45 公開日:2024-07-11
# 最適輸送による自動外周整流

Automatic Outlier Rectification via Optimal Transport ( http://arxiv.org/abs/2403.14067v2 )

ライセンス: Link先を確認
Jose Blanchet, Jiajin Li, Markus Pelger, Greg Zanotti, (参考訳) 本稿では,コンケーブコスト関数を用いた最適輸送を用いた外乱検出のための新しい概念的枠組みを提案する。 従来の外れ値検出手法では、通常2段階の手順を用いる: まず、外れ値を検出して除去し、次にクリーン化されたデータ上で推定を行う。 しかし, この手法では, 推定タスクで外乱除去を通知せず, 改善の余地は残されている。 この制限に対処するため,共同最適化フレームワーク内での修正と推定を統合する自動外乱補正機構を提案する。 本稿では, コンケーブコスト関数を用いて最適な輸送距離を利用するための第一歩として, 確率分布の空間に整合セットを構築する。 次に、推定タスクを実行するための修正セット内での最適分布を選択する。 特に,本論文で紹介した凹凸コスト関数は,最適化過程におけるアウトラヤを効果的に同定する鍵となる。 提案手法は, 平均推定, 最小絶対回帰, オプションインプリードボラティリティ面の嵌合に対するシミュレーションおよび実験解析において, 従来の手法よりも有効であることを示す。

In this paper, we propose a novel conceptual framework to detect outliers using optimal transport with a concave cost function. Conventional outlier detection approaches typically use a two-stage procedure: first, outliers are detected and removed, and then estimation is performed on the cleaned data. However, this approach does not inform outlier removal with the estimation task, leaving room for improvement. To address this limitation, we propose an automatic outlier rectification mechanism that integrates rectification and estimation within a joint optimization framework. We take the first step to utilize the optimal transport distance with a concave cost function to construct a rectification set in the space of probability distributions. Then, we select the best distribution within the rectification set to perform the estimation task. Notably, the concave cost function we introduced in this paper is the key to making our estimator effectively identify the outlier during the optimization process. We demonstrate the effectiveness of our approach over conventional approaches in simulations and empirical analyses for mean estimation, least absolute regression, and the fitting of option implied volatility surfaces.
翻訳日:2024-07-12 22:57:45 公開日:2024-07-11
# DINO-Tracker:「DINO-Tracker」(動画)

DINO-Tracker: Taming DINO for Self-Supervised Point Tracking in a Single Video ( http://arxiv.org/abs/2403.14548v2 )

ライセンス: Link先を確認
Narek Tumanyan, Assaf Singer, Shai Bagon, Tali Dekel, (参考訳) DINO-Tracker - ビデオにおける長時間の高密度トラッキングのための新しいフレームワーク。 我々のアプローチの柱は、DINO-ViTモデルによって学習された強力な局所的セマンティック機能と、単一のビデオ上でのテスト時間トレーニングを組み合わせることである。 具体的には、テストビデオの動作観察に適合するDINOの機能を同時に採用し、改良された機能を直接活用するトラッカーをトレーニングする。 フレームワーク全体は、自己管理された損失と、DINOのセマンティクスから利益を維持するための正規化の組み合わせを使って、エンドツーエンドでトレーニングされています。 広範評価により,本手法は既知のベンチマークで最先端の結果が得られることが示された。 DINOトラッカーは自己管理手法よりも優れており、最先端のトラッカーと競合する一方で、長期の閉塞下での追跡に苦慮するケースでは優れる。

We present DINO-Tracker -- a new framework for long-term dense tracking in video. The pillar of our approach is combining test-time training on a single video, with the powerful localized semantic features learned by a pre-trained DINO-ViT model. Specifically, our framework simultaneously adopts DINO's features to fit to the motion observations of the test video, while training a tracker that directly leverages the refined features. The entire framework is trained end-to-end using a combination of self-supervised losses, and regularization that allows us to retain and benefit from DINO's semantic prior. Extensive evaluation demonstrates that our method achieves state-of-the-art results on known benchmarks. DINO-tracker significantly outperforms self-supervised methods and is competitive with state-of-the-art supervised trackers, while outperforming them in challenging cases of tracking under long-term occlusions.
翻訳日:2024-07-12 22:57:45 公開日:2024-07-11
# 駆動散逸性シュレーディンガー猫量子ビットにおける準粒子誘起誤差の理論

Theory of quasiparticle-induced errors in driven-dissipative Schrödinger cat qubits ( http://arxiv.org/abs/2403.15310v2 )

ライセンス: Link先を確認
Kirill Dubovitskii, Denis M. Basko, Julia S. Meyer, Manuel Houzet, (参考訳) キュービットデコヒーレンスのメカニズムを理解することは、キュービット性能を改善するための重要な前提条件である。 本研究は,Schr\"odinger cat qubitsにおける残存ボゴリューボフ準粒子の効果について論じる。 超伝導量子ビットにおける準粒子の以前の研究との大きな違いは、Schr\"odinger cat qubits が非平衡条件下で動作していることである。実際、外部マイクロ波駆動は、回転フレーム内の有効定常リンドブレディアンのコヒーレント縮退固有状態の重畳である「キャット状態」を安定化するために必要である。 キャット量子ビットに対するマスター方程式の顕微鏡的導出を行い, キャット量子ビットの密度行列に作用する散逸剤として準粒子の効果を表現した。 これにより、準粒子がクォービット誤差に実質的な寄与を与える条件を決定することができる。

Understanding the mechanisms of qubit decoherence is a crucial prerequisite for improving the qubit performance. In this work we discuss the effects of residual Bogolyubov quasiparticles in Schr\"odinger cat qubits, either of the dissipative or Kerr type. The major difference from previous studies of quasiparticles in superconducting qubits is that the Schr\"odinger cat qubits are operated under non-equilibrium conditions. Indeed, an external microwave drive is needed to stabilize "cat states", which are superpositions of coherent degenerate eigenstates of an effective stationary Lindbladian in the rotating frame. We present a microscopic derivation of the master equation for cat qubits and express the effect of the quasiparticles as dissipators acting on the density matrix of the cat qubit. This enables us to determine the conditions under which the quasiparticles give a substantial contribution to the qubit errors.
翻訳日:2024-07-12 22:57:45 公開日:2024-07-11
# SLEDGE: 生成モデルとルールベーストラフィックによる運転環境の合成

SLEDGE: Synthesizing Driving Environments with Generative Models and Rule-Based Traffic ( http://arxiv.org/abs/2403.17933v2 )

ライセンス: Link先を確認
Kashyap Chitta, Daniel Dauner, Andreas Geiger, (参考訳) SLEDGEは、現実世界の走行ログに基づいて訓練された車両の運動訓練のための最初の生成シミュレータである。 そのコアコンポーネントは学習モデルであり、エージェント境界ボックスとレーングラフを生成することができる。 モデルの出力は、ルールベースのトラフィックシミュレーションの初期状態として機能する。 接続性やシーンごとの変数数など、SLEDGEで生成されるエンティティのユニークな特性は、このタスクに最もモダンな生成モデルの素直な応用をもたらす。 そこで,既存のレーングラフ表現の体系的研究とともに,新しいラスタ・ベクター・オートエンコーダを導入する。 エージェントとレーングラフをラスタ化潜在写像で異なるチャネルに符号化する。 これにより、レーン条件のエージェント生成と、拡散変換器によるレーンとエージェントの生成の両方が容易になる。 SLEDGEで生成されたエンティティを使用することで、例えば、ターンアップサンプリングやトラフィック密度の増大といったシミュレーションをより制御できる。 さらに、SLEDGEは、nuPlanのような既存のデータ駆動シミュレータでは見られない500mの長いルートをサポートすることができる。 2023年の nuPlan チャレンジの勝者である PDM の失敗率 40% 以上で証明された,計画アルゴリズムの新たな課題を示す。 nuPlanと比較すると、SLEDGEはセットアップに500$\times$(4GB)のストレージを必要とする。

SLEDGE is the first generative simulator for vehicle motion planning trained on real-world driving logs. Its core component is a learned model that is able to generate agent bounding boxes and lane graphs. The model's outputs serve as an initial state for rule-based traffic simulation. The unique properties of the entities to be generated for SLEDGE, such as their connectivity and variable count per scene, render the naive application of most modern generative models to this task non-trivial. Therefore, together with a systematic study of existing lane graph representations, we introduce a novel raster-to-vector autoencoder. It encodes agents and the lane graph into distinct channels in a rasterized latent map. This facilitates both lane-conditioned agent generation and combined generation of lanes and agents with a Diffusion Transformer. Using generated entities in SLEDGE enables greater control over the simulation, e.g. upsampling turns or increasing traffic density. Further, SLEDGE can support 500m long routes, a capability not found in existing data-driven simulators like nuPlan. It presents new challenges for planning algorithms, evidenced by failure rates of over 40% for PDM, the winner of the 2023 nuPlan challenge, when tested on hard routes and dense traffic generated by our model. Compared to nuPlan, SLEDGE requires 500$\times$ less storage to set up (<4 GB), making it a more accessible option and helping with democratizing future research in this field.
翻訳日:2024-07-12 22:57:45 公開日:2024-07-11
# LUQ:LLMの長期不確実性定量化

LUQ: Long-text Uncertainty Quantification for LLMs ( http://arxiv.org/abs/2403.20279v2 )

ライセンス: Link先を確認
Caiqi Zhang, Fangyu Liu, Marco Basaldella, Nigel Collier, (参考訳) 大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な能力を示した。 しかし、LCMは非現実的なコンテンツを生成する傾向にある。 不確実性定量化(UQ)は、モデルの生成に対する信頼を高める上で重要な要素であり、非実効的な出力の緩和に寄与する。 UQに関する既存の研究は、主に短いテキスト生成をターゲットとしており、通常は短い、単語限定の応答をもたらす。 しかし、現実世界のアプリケーションは、より長いレスポンスを必要とすることが多い。 本研究はまず,長文生成処理における現在のUQ手法の限界について述べる。 次に、長いテキスト用に特別に設計された新しいサンプリングベースのUQアプローチである、textsc{Luq}とその2つのバリエーションを紹介する。 以上の結果から,<textsc{Luq} はモデル事実性スコア(Gemini Pro で観測された-0.85 の負係数)と相関して,既存のベースライン法よりも優れていることがわかった。 LLM応答の現実性をさらに向上するために、複数のモデルからの応答をアンサンブルし、最も低い不確実性で応答を選択する方法である「textsc{Luq-Ensemble}」を提案する。 アンサンブル法は、最高のスタンドアロンLCMに対する応答事実性を大幅に改善する。

Large Language Models (LLMs) have demonstrated remarkable capability in a variety of NLP tasks. However, LLMs are also prone to generate nonfactual content. Uncertainty Quantification (UQ) is pivotal in enhancing our understanding of a model's confidence on its generation, thereby aiding in the mitigation of nonfactual outputs. Existing research on UQ predominantly targets short text generation, typically yielding brief, word-limited responses. However, real-world applications frequently necessitate much longer responses. Our study first highlights the limitations of current UQ methods in handling long text generation. We then introduce \textsc{Luq} and its two variations, a series of novel sampling-based UQ approaches specifically designed for long text. Our findings reveal that \textsc{Luq} outperforms existing baseline methods in correlating with the model's factuality scores (negative coefficient of -0.85 observed for Gemini Pro). To further improve the factuality of LLM responses, we propose \textsc{Luq-Ensemble}, a method that ensembles responses from multiple models and selects the response with the lowest uncertainty. The ensembling method greatly improves the response factuality upon the best standalone LLM.
翻訳日:2024-07-12 22:57:45 公開日:2024-07-11
# AdaGlimpse: 任意傾斜位とスケールによるアクティブビジュアル探索

AdaGlimpse: Active Visual Exploration with Arbitrary Glimpse Position and Scale ( http://arxiv.org/abs/2404.03482v2 )

ライセンス: Link先を確認
Adam Pardyl, Michał Wronka, Maciej Wołczyk, Kamil Adamczewski, Tomasz Trzciński, Bartosz Zieliński, (参考訳) アクティブ・ビジュアル・エクスプロレーション(AVE)は、環境内の理解とナビゲーションを容易にするために重要である観察(グランプ)を動的に選択するタスクである。 現代のAVE法は目覚ましい性能を示しているが、剛性グリッドからの固定スケールの視線に制約されている。 対照的に、光学ズーム機能を備えた既存のモバイルプラットフォームは、任意の位置とスケールを垣間見ることができる。 ソフトウェアとハードウェアのこのギャップに対処するために、AdaGlimpseを紹介します。 探索作業に適した強化学習アルゴリズムであるSoft Actor-Criticを使って、任意の位置とスケールを垣間見る。 このアプローチにより,詳細な分析のためにズームインする前に,我々のモデルは環境に対する一般的な認識を迅速に確立することができる。 実験結果から,AdaGlimpseは現実的なAVEシナリオにおいて適用性を高めつつ,様々な視覚的タスクにまたがる従来の手法を超越していることが示された。

Active Visual Exploration (AVE) is a task that involves dynamically selecting observations (glimpses), which is critical to facilitate comprehension and navigation within an environment. While modern AVE methods have demonstrated impressive performance, they are constrained to fixed-scale glimpses from rigid grids. In contrast, existing mobile platforms equipped with optical zoom capabilities can capture glimpses of arbitrary positions and scales. To address this gap between software and hardware capabilities, we introduce AdaGlimpse. It uses Soft Actor-Critic, a reinforcement learning algorithm tailored for exploration tasks, to select glimpses of arbitrary position and scale. This approach enables our model to rapidly establish a general awareness of the environment before zooming in for detailed analysis. Experimental results demonstrate that AdaGlimpse surpasses previous methods across various visual tasks while maintaining greater applicability in realistic AVE scenarios.
翻訳日:2024-07-12 22:57:45 公開日:2024-07-11
# 情報処理の起源と進化

The Origin and Evolution of Information Handling ( http://arxiv.org/abs/2404.04374v4 )

ライセンス: Link先を確認
Amahury Jafet López-Díaz, Hiroki Sayama, Carlos Gershenson, (参考訳) 生命の起源を説明する上での大きな課題は、「分子動力学から自然に自然に情報制御系がどのように出現するか」を説明することである。 これまでのところ、情報制御がいかに開始したのか、そして生命における原始的な制御機構がどのように進化し、ますます洗練されていくのかは、誰も明らかにしていない。 化学計算が生命関連化学の存在を必要としないことを示す最近の実験結果に基づいて,情報処理(計算)から情報記憶(記憶),情報伝達(通信)に至るまで,化学オートマトンによる情報処理の起源と初期の進化を解明し,同時にその統語的・意味的・実践的なフレーバーをカバーした。 初期の複雑な構造の存在を仮定する他の理論とは対照的に、我々の表現は相互作用がより強力な分子機械を生み出すような自複製子から始まる。 化学計算における原始遷移を正確に記述することにより、上記のギャップを説明でき、他の計算モデルに変換できるので、複数の空間的・時間的スケールで生物現象を探索することができる。 自由エネルギーの原理と相容れないことから、生命の起源から高レベルの認知まで、まるで純粋に構成主義的な物語であるかのように説明できる計算エノクティビズム理論の枠組みを開発した。 原稿の最後には、我々の理論(in vitroとsilicoの両方)を実験的に検証するなど、アイデアを拡張するいくつかの方法を提案する。

A major challenge when describing the origin of life is to explain "how instructional information control systems emerge naturally and spontaneously from mere molecular dynamics". So far, no one has clarified how information control emerged ab initio and how primitive control mechanisms in life might have evolved, becoming increasingly refined. Based on recent experimental results showing that chemical computation does not require the presence of life-related chemistry, we elucidate the origin and early evolution of information handling by chemical automata, from information processing (computation) to information storage (memory) and information transmission (communication) and later digital messengers, covering at the same time its syntactic, semantic and pragmatic flavors. In contrast to other theories that assume the existence of initial complex structures, our representation starts from trivial self-replicators whose interaction leads to the arising of more powerful molecular machines. By describing precisely the primordial transitions in chemistry-based computation, our framework is capable of explaining the above-mentioned gaps and can be translated to other models of computation, which allow us to explore biological phenomena at multiple spatial and temporal scales. Being compatible with the free energy principle, we have developed a computational enactivist theoretical framework that could be able to describe from the origin of life to high-level cognition, as if it were a purely constructivist narrative. At the end of our manuscript, we propose some ways to extend our ideas, including experimental validation of our theory (both in vitro and in silico).
翻訳日:2024-07-12 22:57:45 公開日:2024-07-11
# 推論時間ルール消去器:蒸留およびバイアスドルールの除去による公正な認識

Inference-Time Rule Eraser: Fair Recognition via Distilling and Removing Biased Rules ( http://arxiv.org/abs/2404.04814v3 )

ライセンス: Link先を確認
Yi Zhang, Dongyuan Lu, Jitao Sang, (参考訳) 機械学習モデルは、性別、人種、その他の社会的属性などのバイアスのある特徴に基づいて予測を行い、特に雇用、銀行、刑事司法といった社会的な応用において重要な公正性リスクを生じさせる。 この問題に対処する従来のアプローチは、公正さを意識した最適化目標を持つニューラルネットワークの再トレーニングや微調整を含む。 しかし、これらの手法は計算資源、複雑な工業試験、および関連するCO2フットプリントのために実用的ではない。 さらに,モデルパラメータへのアクセスが欠如しているため,正規ユーザはモデル修正に失敗することが多い。本論文では,モデル重みを変更することなく,モデルに配置されたモデルからバイアスのある決定ルールを取り除き,公平性に対処する新しい手法である推論時ルール消去器(Eraser)を紹介する。 まず、ベイズ解析により偏りのある規則を除去するためにモデル出力を変更する理論的基礎を確立する。 次に、(1)デプロイされたモデルから追加のパッチモデルにバイアスされたルールを蒸留し、(2)推論中にデプロイされたモデルの出力からバイアスされたルールを除去する。 大規模な実験により,AIシステムにおける公平性の懸念に対処する上で,その優れた性能を示すとともに,提案手法の有効性を検証した。

Machine learning models often make predictions based on biased features such as gender, race, and other social attributes, posing significant fairness risks, especially in societal applications, such as hiring, banking, and criminal justice. Traditional approaches to addressing this issue involve retraining or fine-tuning neural networks with fairness-aware optimization objectives. However, these methods can be impractical due to significant computational resources, complex industrial tests, and the associated CO2 footprint. Additionally, regular users often fail to fine-tune models because they lack access to model parameters In this paper, we introduce the Inference-Time Rule Eraser (Eraser), a novel method designed to address fairness concerns by removing biased decision-making rules from deployed models during inference without altering model weights. We begin by establishing a theoretical foundation for modifying model outputs to eliminate biased rules through Bayesian analysis. Next, we present a specific implementation of Eraser that involves two stages: (1) distilling the biased rules from the deployed model into an additional patch model, and (2) removing these biased rules from the output of the deployed model during inference. Extensive experiments validate the effectiveness of our approach, showcasing its superior performance in addressing fairness concerns in AI systems.
翻訳日:2024-07-12 22:57:45 公開日:2024-07-11
# UniMD: モーメント検索と時間行動検出の統合を目指して

UniMD: Towards Unifying Moment Retrieval and Temporal Action Detection ( http://arxiv.org/abs/2404.04933v2 )

ライセンス: Link先を確認
Yingsen Zeng, Yujie Zhong, Chengjian Feng, Lin Ma, (参考訳) 時間的行動検出(TAD)は、事前に定義されたアクションを検出することに焦点を当て、モーメント検索(MR)は、未トリミングビデオの中で、オープンな自然言語によって記述される事象を特定することを目的としている。 異なるイベントに重点を置いているにも関わらず、大きなつながりがあることを私たちは観察しています。 例えば、MRのほとんどの記述はTADからの複数のアクションを含んでいる。 本稿では,TAD と MR のシナジーの可能性を検討することを目的としており,まず,TAD と MR の双方に対して統一的モーメント検出 (UniMD) と呼ばれる統一アーキテクチャを提案し,TAD の動作や MR のイベントといった2つのタスクの入力を共通の埋め込み空間に変換し,新しいクエリ依存デコーダを用いて分類スコアと時間セグメントの均一な出力を生成する。 第2に,TADとMRの相互利益を高めるために,事前学習と協調訓練という2つのタスク融合学習手法の有効性について検討した。 印象的なことに、UniMDは、Ego4D、Charades-STA、ActivityNetの3つのペアデータセットで最先端の結果を達成する。 私たちのコードはhttps://github.com/yingsen1/UniMDで利用可能です。

Temporal Action Detection (TAD) focuses on detecting pre-defined actions, while Moment Retrieval (MR) aims to identify the events described by open-ended natural language within untrimmed videos. Despite that they focus on different events, we observe they have a significant connection. For instance, most descriptions in MR involve multiple actions from TAD. In this paper, we aim to investigate the potential synergy between TAD and MR. Firstly, we propose a unified architecture, termed Unified Moment Detection (UniMD), for both TAD and MR. It transforms the inputs of the two tasks, namely actions for TAD or events for MR, into a common embedding space, and utilizes two novel query-dependent decoders to generate a uniform output of classification score and temporal segments. Secondly, we explore the efficacy of two task fusion learning approaches, pre-training and co-training, in order to enhance the mutual benefits between TAD and MR. Extensive experiments demonstrate that the proposed task fusion learning scheme enables the two tasks to help each other and outperform the separately trained counterparts. Impressively, UniMD achieves state-of-the-art results on three paired datasets Ego4D, Charades-STA, and ActivityNet. Our code is available at https://github.com/yingsen1/UniMD.
翻訳日:2024-07-12 22:57:45 公開日:2024-07-11
# CoReS: 推論とセグメンテーションの踊りを編成する

CoReS: Orchestrating the Dance of Reasoning and Segmentation ( http://arxiv.org/abs/2404.05673v3 )

ライセンス: Link先を確認
Xiaoyi Bao, Siyang Sun, Shuailei Ma, Kecheng Zheng, Yuxin Guo, Guosheng Zhao, Yun Zheng, Xingang Wang, (参考訳) 複雑なクエリの微妙な理解を要求される推論セグメンテーションタスクは、オブジェクト領域を正確に特定するものであり、注目を集めている。 しかし、MLLM(Multi-modal Large Language Models)は複雑な推論コンテキストで記述されたオブジェクトを正確にローカライズすることが難しいことが多い。 分割を推論する行為は、人間の視覚探索の認知段階を反映すべきであり、各ステップは最終対象に対する思考の進歩的な洗練である。 そこで我々は,Reasoning and Segmenting (CoReS) の連鎖を導入し,このトップダウンの視覚階層がビジュアル検索プロセスを強化していることを確認した。 具体的には、セグメント化プロセスを支援するために、マルチモーダル、チェーンライクな出力を生成する二重鎖構造を提案する。 さらに、MLLMの出力をこの階層にステアリングするために、インコンテキスト入力をガイダンスとして組み込む。 ReasonSegデータセットでは、最先端の手法を6.5\%上回るCoReSの優れた性能を示す。 プロジェクト:https://chain-of-reasoning-and-segmentation.github.io/。

The reasoning segmentation task, which demands a nuanced comprehension of intricate queries to accurately pinpoint object regions, is attracting increasing attention. However, Multi-modal Large Language Models (MLLM) often find it difficult to accurately localize the objects described in complex reasoning contexts. We believe that the act of reasoning segmentation should mirror the cognitive stages of human visual search, where each step is a progressive refinement of thought toward the final object. Thus we introduce the Chains of Reasoning and Segmenting (CoReS) and find this top-down visual hierarchy indeed enhances the visual search process. Specifically, we propose a dual-chain structure that generates multi-modal, chain-like outputs to aid the segmentation process. Furthermore, to steer the MLLM's outputs into this intended hierarchy, we incorporate in-context inputs as guidance. Extensive experiments demonstrate the superior performance of our CoReS, which surpasses the state-of-the-art method by 6.5\% on the ReasonSeg dataset. Project: https://chain-of-reasoning-and-segmentation.github.io/.
翻訳日:2024-07-12 22:57:45 公開日:2024-07-11
# 低表面・体積モデルのための簡潔な平面配置

Concise Plane Arrangements for Low-Poly Surface and Volume Modelling ( http://arxiv.org/abs/2404.06154v2 )

ライセンス: Link先を確認
Raphael Sulzer, Florent Lafarge, (参考訳) 平面配置は表面および体積モデリングに有用なツールである。 しかし、主な欠点はスケーラビリティの低下である。 複雑な物体とシーン全体のための平面配置の構築を可能にする2つの重要なノベルティを紹介します。 一 平面の挿入及び発注の方法 二 配置工事中の入力点の直接使用 どちらの成分も不要な分割数を減らすため、既存のアルゴリズムと比較して最大2桁のスケーラビリティが向上する。 さらに,低ポリゴン表面メッシュを抽出し,体積の軽量な凸分解を可能にするリメッシング・簡易化手法を導入する。 提案手法は,様々なデータセットの学習ベースおよび従来のアプローチと比較することにより,上記の課題に対する最先端の結果につながることを示す。 私たちの実装はhttps://github.com/raphaelsulzer/compodで公開しています。

Plane arrangements are a useful tool for surface and volume modelling. However, their main drawback is poor scalability. We introduce two key novelties that enable the construction of plane arrangements for complex objects and entire scenes: (i) an ordering scheme for the plane insertion and (ii) the direct use of input points during arrangement construction. Both ingredients reduce the number of unwanted splits, resulting in improved scalability of the construction mechanism by up to two orders of magnitude compared to existing algorithms. We further introduce a remeshing and simplification technique that allows us to extract low-polygon surface meshes and lightweight convex decompositions of volumes from the arrangement. We show that our approach leads to state-of-the-art results for the aforementioned tasks by comparing it to learning-based and traditional approaches on various different datasets. Our implementation is available at https://github.com/raphaelsulzer/compod .
翻訳日:2024-07-12 22:57:45 公開日:2024-07-11
# バイオメディシンにおけるLCM : 臨床名称のエンティティ認識に関する研究

LLMs in Biomedicine: A study on clinical Named Entity Recognition ( http://arxiv.org/abs/2404.07376v2 )

ライセンス: Link先を確認
Masoud Monajatipoor, Jiaxin Yang, Joel Stremmel, Melika Emami, Fazlolah Mohaghegh, Mozhdeh Rouhsedaghat, Kai-Wei Chang, (参考訳) 大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な汎用性を示すが、言語とデータ不足の複雑さのため、バイオメディカルにおいて異なる課題に直面する。 本稿では,NER タスクの性能向上戦略を探求し,生物医学領域における LLM の応用について検討する。 本研究は, バイオメディカルにおける精密に設計されたプロンプトの重要性を明らかにするものである。 コンテキスト内サンプルの戦略的選択は顕著な改善をもたらし、バイオメディカルな数ショットNERのためのすべてのベンチマークデータセットでF1スコアが15~20パーセント向上した。 さらに,本研究は,バイオメディカルNERの専門的ニーズを満たすための汎用LSMの習熟度を高めるために,プロンプト戦略による外部バイオメディカル知識の統合が可能であることを示唆した。 バイオメディカルNERのゼロショットF1スコアを向上するために, 医療知識ベースを活用して, RAG(Retrieval-Augmented Generation)にインスパイアされたDiraGを提案する。 コードは \url{https://github.com/masoud-monajati/LLM_Bio_NER} でリリースされる。

Large Language Models (LLMs) demonstrate remarkable versatility in various NLP tasks but encounter distinct challenges in biomedical due to the complexities of language and data scarcity. This paper investigates LLMs application in the biomedical domain by exploring strategies to enhance their performance for the NER task. Our study reveals the importance of meticulously designed prompts in the biomedical. Strategic selection of in-context examples yields a marked improvement, offering ~15-20\% increase in F1 score across all benchmark datasets for biomedical few-shot NER. Additionally, our results indicate that integrating external biomedical knowledge via prompting strategies can enhance the proficiency of general-purpose LLMs to meet the specialized needs of biomedical NER. Leveraging a medical knowledge base, our proposed method, DiRAG, inspired by Retrieval-Augmented Generation (RAG), can boost the zero-shot F1 score of LLMs for biomedical NER. Code is released at \url{https://github.com/masoud-monajati/LLM_Bio_NER}
翻訳日:2024-07-12 22:48:00 公開日:2024-07-11
# 格子幾何学からのヒルベルト空間の断片化

Hilbert space fragmentation from lattice geometry ( http://arxiv.org/abs/2404.07825v2 )

ライセンス: Link先を確認
Pieter H. Harkema, Michael Iversen, Anne E. B. Nielsen, (参考訳) 固有状態熱化仮説は、孤立した多体量子系がどのように熱平衡に達するかを記述する。 しかし、量子多体傷やヒルベルト空間の断片化はこの仮説に反し、非熱的挙動を引き起こす。 ヒルベルト空間の断片化は、領域壁の数を保存するスピン-1/2モデルの格子幾何学から生じる可能性があることを実証する。 我々は、既知の1次元スカーレッドモデルをより大きな次元に一般化し、このモデルがヴィエクフラクタル格子と2次元格子にヒルベルト空間の断片化を示すことを示す。 モンテカルロ法を用いて、ドメイン壁の数が最大値に近い場合、モデルはヴィエクフラクタル格子上で強く断片化されていると特徴づけられる。 二次元格子上では、ドメイン壁の密度が低く、ドメイン壁の密度が高いときに弱いフラグメント化を行う。 さらに, フラクタル格子と二次元格子の熱力学的限界において, フラグメンテーションは有限密度の領域壁で持続することを示した。 また,第2世代ヘキサフレークフラクタル格子と修正2次元格子の断面に,ヒルベルト空間のフラグメンテーションに類似したシグネチャが現れることを示した。 本研究では,局所観測装置の自己相関関数について検討し,非熱的ダイナミクスを示すことを示す。

The eigenstate thermalization hypothesis describes how isolated many-body quantum systems reach thermal equilibrium. However, quantum many-body scars and Hilbert space fragmentation violate this hypothesis and cause nonthermal behavior. We demonstrate that Hilbert space fragmentation may arise from lattice geometry in a spin-1/2 model that conserves the number of domain walls. We generalize a known, one-dimensional, scarred model to larger dimensions and show that this model displays Hilbert space fragmentation on the Vicsek fractal lattice and the two-dimensional lattice. Using Monte Carlo methods, the model is characterized as strongly fragmented on the Vicsek fractal lattice when the number of domain walls is either small or close to the maximal value. On the two-dimensional lattice, the model is strongly fragmented when the density of domain walls is low and weakly fragmented when the density of domain walls is high. Furthermore, we show that the fragmentation persists at a finite density of domain walls in the thermodynamic limit for the Vicsek fractal lattice and the two-dimensional lattice. We also show that the model displays signatures similar to Hilbert space fragmentation on a section of the second-generation hexaflake fractal lattice and a modified two-dimensional lattice. We study the autocorrelation function of local observables and demonstrate that the model displays nonthermal dynamics.
翻訳日:2024-07-12 22:48:00 公開日:2024-07-11
# Attention U-Net と ProtTrans タンパク言語モデルを用いたタンパク質固有性障害予測

Protein intrinsic disorder prediction using Attention U-Net and ProtTrans protein language model ( http://arxiv.org/abs/2404.08108v2 )

ライセンス: Link先を確認
Krzysztof Kotowski, Irena Roterman, Katarzyna Stapor, (参考訳) 内因性障害領域の予測は、タンパク質の機能、構造、ダイナミクスを理解する上で重要な意味を持つ。 新しい薬物、治療薬、酵素を設計するのに不可欠な、新規の機能やタンパク質とタンパク質の相互作用を発見するのに役立つ。 近年,タンパク質言語モデルに基づく新しい世代の予測器が出現している。 これらのアルゴリズムは、時間を要する多重シーケンスアライメント(MSA)を計算することなく、最先端の精度に達する。 本稿では、タンパク質言語モデルProtTransの特徴を用いて、意図的U-Net畳み込みニューラルネットワークに基づく、新しいタンパク質内因性障害予測器であるDunctionUnetLMをプリセットする。 DisorderUnetLMは、MSAを用いたflDPnnおよびIDP-CRF予測器と、同じProtTransモデルの特徴を用いたSETH予測器との直接比較において、上位結果を示す。 さらに、最新のタンパク質内因性障害予測(CAID-2)ベンチマークから得られた41の予測者のうち、障害-PDBサブセット(ROC-AUCが0.924)で9位、障害-NOXサブセット(ROC-AUCが0.844)で1位にランクされ、Distor-derUnetLMが提出されたCAID-3課題において、その可能性を確認する。

The prediction of intrinsic disorder regions has significant implications for understanding protein function, structure, and dynamics. It can help to discover novel functions or protein-protein interactions essential to designing new drugs, therapies, or enzymes. Recently, a new generation of predictors based on protein language models is emerging. These algorithms reach state-of-the-art accuracy without calculating time-consuming multiple sequence alignments (MSAs). The article pre-sents a new protein intrinsic disorder predictor DisorderUnetLM based on the Attention U-Net convolutional neural network using features from the protein language model ProtTrans. DisorderUnetLM shows top results in the direct comparison with flDPnn and IDP-CRF predictors using MSAs and with the SETH predictor using features from the same ProtTrans model. Moreover, among 41 predictors from the latest Critical Assessment of Protein Intrinsic Disorder Prediction (CAID-2) benchmark, it ranks 9th for the Disorder-PDB subset (with ROC-AUC of 0.924) and 1st for the Disorder-NOX subset (with ROC-AUC of 0.844) which confirms its potential to perform well in the upcoming CAID-3 challenge for which Disor-derUnetLM was submitted.
翻訳日:2024-07-12 22:48:00 公開日:2024-07-11
# ノイズ相関測定によるスピン電荷分離を伴う自然対称性破壊相の探索

Probing spontaneously symmetry-broken phases with spin-charge separation through noise correlation measurements ( http://arxiv.org/abs/2404.08374v2 )

ライセンス: Link先を確認
Kerman Gallego-Lizarribar, Sergi Julià-Farré, Maciej Lewenstein, Christof Weitenberg, Luca Barbiero, Javier Argüello-Luengo, (参考訳) 自発的対称性破壊(SSB)相は、多種多様な物理系を特徴づける物質が局所的に秩序づけられた状態である。 特定の順序付けのため、それらの存在は普通、局所的な順序パラメータによって観察される。 本稿では,原子雲の弾道膨張後の雑音の統計的相関に基づく代替手法を提案する。 このようなノイズ相関器を探索することで、スピン電荷分離を特徴とする様々なSSB位相を判別できることを示す。 このモデルでは、局所結合と非局所結合の競合により電荷密度波、結合秩序波、反強磁性の3つの異なるSSB相が生じる。 数値解析により、この手法はこれらの異なるSSB相の存在を正確に捉えることができ、強く相互作用する量子物質を特徴づけるための代替的で強力な戦略を表現できることを示す。

Spontaneously symmetry-broken (SSB) phases are locally ordered states of matter characterizing a large variety of physical systems. Because of their specific ordering, their presence is usually witnessed by means of local order parameters. Here, we propose an alternative approach based on statistical correlations of noise after the ballistic expansion of an atomic cloud. We indeed demonstrate that probing such noise correlators allows one to discriminate among different SSB phases characterized by spin-charge separation. As a particular example, we test our prediction on a 1D extended Fermi-Hubbard model, where the competition between local and nonlocal couplings gives rise to three different SSB phases: a charge density wave, a bond-ordering wave, and an antiferromagnet. Our numerical analysis shows that this approach can accurately capture the presence of these different SSB phases, thus representing an alternative and powerful strategy to characterize strongly interacting quantum matter.
翻訳日:2024-07-12 22:48:00 公開日:2024-07-11
# LLMにおけるハロゲン化防止のためのベンチマークの構築と対策

Constructing Benchmarks and Interventions for Combating Hallucinations in LLMs ( http://arxiv.org/abs/2404.09971v2 )

ライセンス: Link先を確認
Adi Simhi, Jonathan Herzig, Idan Szpektor, Yonatan Belinkov, (参考訳) 大型言語モデル(LLM)は幻覚を起こす傾向があり、それらを検出し予防するための広範囲な取り組みを引き起こした。 最近の研究は、モデルが隠れた状態を幻覚状態から遠ざけるために、モデル世代(典型的には幻覚と接地世代)に介入することによって幻覚を緩和しようとする試みである。 しかし、一般的な研究では異なる設定が採用されており、幻覚の原因を適切に区別しておらず、介入を誤認している。 そこで本研究では,WACKというモデルが持つ事前知識に基づいて,サンプルを分類する手法を提案する。 オープンブックとクローズドブックの2つの設定で介入を支援するWACKベンチマークを構築した。 ベンチマークを用いて、インターベンブドコンポーネントなどの介入に対する異なる選択の効果と、介入の頻度と強度について、広範囲に調査する。 介入の成功はコンポーネントによって異なり、注意ブロックは良好に動作し、残ストリームは言語モデリング能力に有害であることを証明している。 また、介入は幻覚ではなく、事前に収集した代表ベクトルの恩恵を受けることも示している。 最後に、必要に応じてのみ介入する新しい動的介入を導入し、通常の静的介入よりも堅牢である。 コードはhttps://github.com/technion-cs-nlp/hallucination-mitigationで公開されている。

Large language models (LLMs) are prone to hallucinations, which sparked a widespread effort to detect and prevent them. Recent work attempts to mitigate hallucinations by intervening in the model's generation, typically computing representative vectors of hallucinations vs. grounded generations, for steering the model's hidden states away from a hallucinatory state. However, common studies employ different setups and do not properly separate different possible causes of hallucinations, making interventions misguided. In this work, we introduce a method for categorizing examples based on the model's prior knowledge, named WACK. We construct WACK benchmarks that support interventions in two settings: open-book and closed-book question answering. Using the benchmarks, we perform an extensive investigation of the effect of different choices for intervention, such as the intervened components, and how often and how strongly to intervene. We find that intervention success varies depending on the component, with the attention blocks performing well and the residual stream proving detrimental to language modeling capabilities. We also show that interventions can benefit from representative vectors collected before, rather than after, a hallucination occurs. Finally, we introduce a new dynamic intervention, which intervenes only if needed, and thus is more robust than standard static interventions. The code is available at https://github.com/technion-cs-nlp/hallucination-mitigation .
翻訳日:2024-07-12 22:48:00 公開日:2024-07-11
# DACAD:多変量時系列における異常検出のためのドメイン適応コントラスト学習

DACAD: Domain Adaptation Contrastive Learning for Anomaly Detection in Multivariate Time Series ( http://arxiv.org/abs/2404.11269v2 )

ライセンス: Link先を確認
Zahra Zamanzadeh Darban, Yiyuan Yang, Geoffrey I. Webb, Charu C. Aggarwal, Qingsong Wen, Mahsa Salehi, (参考訳) 時系列異常検出(TSAD)では、ラベル付きデータの不足が正確なモデルの開発に困難をもたらす。 教師なしドメイン適応(UDA)は、関連ドメインからのラベル付きデータを活用して、ラベルなしターゲットドメインの異常を検出するソリューションを提供する。 しかし、既存のUDAメソッドはドメイン間で一貫した異常なクラスを仮定する。 この制限に対処するために,多変量時系列(DACAD)における異常検出のための新しいドメイン適応コントラスト学習モデルを提案する。 DACADは異常注入機構を利用して、目に見えない異常なクラスをまたいだ一般化を促進し、適応性と堅牢性を向上させる。 さらに,本モデルでは,ソースドメインに対する教師付きコントラスト損失と,ターゲットドメインに対する自己監督型コントラスト三重項損失を採用し,包括的特徴表現学習とドメイン不変特徴抽出を実現する。 最後に、有効なCentral-based Entropy Classifier(CEC)は、ソースドメインの通常の境界を正確に学習する。 複数の実世界のデータセットと合成データセットに対する広範な評価は、ドメイン間で知識を伝達し、TSAD内の限定ラベル付きデータの課題を軽減する上で、DACADの優れたパフォーマンスを強調している。

In time series anomaly detection (TSAD), the scarcity of labeled data poses a challenge to the development of accurate models. Unsupervised domain adaptation (UDA) offers a solution by leveraging labeled data from a related domain to detect anomalies in an unlabeled target domain. However, existing UDA methods assume consistent anomalous classes across domains. To address this limitation, we propose a novel Domain Adaptation Contrastive learning model for Anomaly Detection in multivariate time series (DACAD), combining UDA with contrastive learning. DACAD utilizes an anomaly injection mechanism that enhances generalization across unseen anomalous classes, improving adaptability and robustness. Additionally, our model employs supervised contrastive loss for the source domain and self-supervised contrastive triplet loss for the target domain, ensuring comprehensive feature representation learning and domain-invariant feature extraction. Finally, an effective Centre-based Entropy Classifier (CEC) accurately learns normal boundaries in the source domain. Extensive evaluations on multiple real-world datasets and a synthetic dataset highlight DACAD's superior performance in transferring knowledge across domains and mitigating the challenge of limited labeled data in TSAD.
翻訳日:2024-07-12 22:48:00 公開日:2024-07-11
# NormAd: 大規模言語モデルの文化的適応性を評価するベンチマーク

NormAd: A Benchmark for Measuring the Cultural Adaptability of Large Language Models ( http://arxiv.org/abs/2404.12464v5 )

ライセンス: Link先を確認
Abhinav Rao, Akhila Yerukola, Vishwa Shah, Katharina Reinecke, Maarten Sap, (参考訳) LLMは相互作用をナビゲートし、社会的規範を尊重し、文化的境界を越えることを避けなければならない。 しかし、LLMが生産物を多様な文化規範に適応できるかどうかはまだ不明である。 我々の研究は、この側面に焦点を当てている。 我々は,75カ国の社会的・文化的規範を表す2.6kの物語を含む新しいデータセットであるNormAdを紹介した。 我々の研究は、LLMがすべての文脈の粒度を横断する文化的推論に苦慮していることを示し、グローバル・サウスの文化よりも英語中心の文化に強い適応性を示している。 明示的な社会的規範にもかかわらず、トップパフォーマンスモデルであるMistral-7b-Instructは81.8%の精度しか達成せず、人間によって達成された95.6%に遅れている。 NormAdの評価は、LLMが文化全体にわたるギフトギフトを含むストーリーに適応するのに苦労していることをさらに明らかにしている。 LLMは、本質的な合意や薬効バイアスのため、標準に従うストーリーの社会的受容性を評価するのが、逸脱するストーリーよりもはるかに容易である。 我々のベンチマークは、LLMの文化的適応性(またはその欠如)を測定し、これらの技術をグローバルな観客にとってより公平で有用なものにする可能性を強調している。 NormAdデータセットとその関連コードはGitHubでリリースしています。

The integration of large language models (LLMs) into various global cultures fundamentally presents a challenge: LLMs must navigate interactions, respect social norms, and avoid transgressing cultural boundaries. However, it is still unclear if LLMs can adapt their outputs to diverse cultural norms. Our study focuses on this aspect. We introduce NormAd, a novel dataset, which includes 2.6k stories that represent social and cultural norms from 75 countries, to assess the ability of LLMs to adapt to different granular levels of socio-cultural contexts such as the country of origin, its associated cultural values, and prevalent social norms. Our study reveals that LLMs struggle with cultural reasoning across all contextual granularities, showing stronger adaptability to English-centric cultures over those from the Global South. Even with explicit social norms, the top-performing model, Mistral-7b-Instruct, achieves only 81.8% accuracy, lagging behind the 95.6% achieved by humans. Evaluation on NormAd further reveals that LLMs struggle to adapt to stories involving gift-giving across cultures. Due to inherent agreement or sycophancy biases, LLMs find it considerably easier to assess the social acceptability of stories that adhere to norms than those that deviate. Our benchmark measures the cultural adaptability (or lack thereof) of LLMs, emphasizing the potential to make these technologies more equitable and useful for global audiences. We release the NormAd dataset and its associated code on GitHub.
翻訳日:2024-07-12 22:48:00 公開日:2024-07-11
# 詳細再構成のための帯域制限ニューラルネットワークBANF

BANF: Band-limited Neural Fields for Levels of Detail Reconstruction ( http://arxiv.org/abs/2404.13024v2 )

ライセンス: Link先を確認
Ahan Shabanov, Shrisudhan Govindarajan, Cody Reading, Lily Goli, Daniel Rebain, Kwang Moo Yi, Andrea Tagliasacchi, (参考訳) 主に暗黙的な性質のため、離散信号処理からのフーリエ解析はこれらの表現に直接適用されないため、ニューラルネットワークはフィルタリングの直接的なメカニズムを欠いている。 ニューラルネットワークの効果的なフィルタリングは、下流アプリケーションでのレベル・オブ・ディーテール処理を可能にするために重要であり、通常のグリッド(例えばマーチングキューブ)上のフィールドをサンプリングする処理をサポートする。 周波数領域におけるニューラルフィールドを分解しようとする既存の方法は、ヒューリスティックスを利用するか、あるいはニューラルフィールドアーキテクチャに広範な修正を必要とする。 簡単な修正により、低域通過フィルタのニューラルネットワークが得られることを示すとともに、これをどのように利用して信号全体の周波数分解を得ることができるかを示す。 本研究では,提案手法の妥当性について検討し,粗い表現を効果的に計算する方法を示す。

Largely due to their implicit nature, neural fields lack a direct mechanism for filtering, as Fourier analysis from discrete signal processing is not directly applicable to these representations. Effective filtering of neural fields is critical to enable level-of-detail processing in downstream applications, and support operations that involve sampling the field on regular grids (e.g. marching cubes). Existing methods that attempt to decompose neural fields in the frequency domain either resort to heuristics or require extensive modifications to the neural field architecture. We show that via a simple modification, one can obtain neural fields that are low-pass filtered, and in turn show how this can be exploited to obtain a frequency decomposition of the entire signal. We demonstrate the validity of our technique by investigating level-of-detail reconstruction, and showing how coarser representations can be computed effectively.
翻訳日:2024-07-12 22:48:00 公開日:2024-07-11
# MMA-UNet:赤外・可視画像融合のための多モード非対称UNetアーキテクチャ

MMA-UNet: A Multi-Modal Asymmetric UNet Architecture for Infrared and Visible Image Fusion ( http://arxiv.org/abs/2404.17747v2 )

ライセンス: Link先を確認
Jingxue Huang, Xilai Li, Tianshu Tan, Xiaosong Li, Tao Ye, (参考訳) MMIF(Multi-modal Image fusion)は、様々なモダリティから有用な情報を同じ表現空間にマッピングし、情報融合画像を生成する。 しかし、既存の融合アルゴリズムは対称的に多重モーダル像を融合させる傾向があり、融合結果の特定の領域において浅い情報や偏りが失われる。 本研究では,異なるモードの情報の空間分布の差異を解析し,同一ネットワーク内の符号化特徴がマルチモーダル画像に対して同時に深部特徴空間アライメントを達成できないことを示した。 この問題を解決するために、MMA-UNet (Multi-Modal Asymmetric UNet) が提案された。 我々は、異なるモーダルのための特殊特徴エンコーダを個別に訓練し、同じ表現空間内の異なるモーダルから特徴をメンテナンスし、バランスの取れた情報融合プロセスを確保するために、クロススケールなフュージョン戦略を実装した。 さらに、赤外線および可視画像情報の融合におけるMMA-UNetの効率を実証するために、広範囲な融合および下流タスク実験を行い、視覚的に自然かつ意味的にリッチな融合結果を生成する。 その性能は最先端の比較融合法を上回る。

Multi-modal image fusion (MMIF) maps useful information from various modalities into the same representation space, thereby producing an informative fused image. However, the existing fusion algorithms tend to symmetrically fuse the multi-modal images, causing the loss of shallow information or bias towards a single modality in certain regions of the fusion results. In this study, we analyzed the spatial distribution differences of information in different modalities and proved that encoding features within the same network is not conducive to achieving simultaneous deep feature space alignment for multi-modal images. To overcome this issue, a Multi-Modal Asymmetric UNet (MMA-UNet) was proposed. We separately trained specialized feature encoders for different modal and implemented a cross-scale fusion strategy to maintain the features from different modalities within the same representation space, ensuring a balanced information fusion process. Furthermore, extensive fusion and downstream task experiments were conducted to demonstrate the efficiency of MMA-UNet in fusing infrared and visible image information, producing visually natural and semantically rich fusion results. Its performance surpasses that of the state-of-the-art comparison fusion methods.
翻訳日:2024-07-12 22:48:00 公開日:2024-07-11
# 化学製造プロセスにおける断層検出のための3層深層学習ネットワークランダムツリー

Three-layer deep learning network random trees for fault detection in chemical production process ( http://arxiv.org/abs/2405.00311v2 )

ライセンス: Link先を確認
Ming Lu, Zhen Gao, Ying Zou, Zuguo Chen, Pei Li, (参考訳) 技術の発達に伴い、化学製造プロセスはますます複雑で大規模になり、特に故障検出が重要になっている。 しかし、現在の刑事法は、大規模生産プロセスの複雑さに対処するのに苦労している。 本稿では,ディープラーニングと機械学習技術の強みを統合し,双方向の長期・短期記憶型ニューラルネットワーク,完全連結型ニューラルネットワークの利点と,三層深層学習型ニューラルネットワークランダムツリー(TDLN-trees)と呼ばれる新しい故障検出モデルを提案する。 まず、ディープラーニングコンポーネントは、産業データから時間的特徴を抽出し、それらを組み合わせて高レベルのデータ表現に変換する。 次に、機械学習コンポーネントは、最初のステップで抽出された特徴を処理し、分類する。 テネシー・イーストマン法に基づく実験解析により,提案手法の優位性を検証した。

With the development of technology, the chemical production process is becoming increasingly complex and large-scale, making fault detection particularly important. However, current detective methods struggle to address the complexities of large-scale production processes. In this paper, we integrate the strengths of deep learning and machine learning technologies, combining the advantages of bidirectional long and short-term memory neural networks, fully connected neural networks, and the extra trees algorithm to propose a novel fault detection model named three-layer deep learning network random trees (TDLN-trees). First, the deep learning component extracts temporal features from industrial data, combining and transforming them into a higher-level data representation. Second, the machine learning component processes and classifies the features extracted in the first step. An experimental analysis based on the Tennessee Eastman process verifies the superiority of the proposed method.
翻訳日:2024-07-12 22:48:00 公開日:2024-07-11
# Arrival Times Versus Detection Time

Arrival Times Versus Detection Times ( http://arxiv.org/abs/2405.04607v2 )

ライセンス: Link先を確認
Sheldon Goldstein, Roderich Tumulka, Nino Zanghì, (参考訳) 検出器が量子粒子の到着時刻として登録する時間、すなわち検出時間の確率分布を計算する方法は、長い間議論されてきた問題である。 この点において、ボヘミア力学は、検出器が存在しない状態で粒子が与えられた3空間の表面に実際に到達する時刻の分布を直接的に提供する。 しかし、ここで論じているように、検出器の存在は波動関数や粒子軌道の進化を変えることができるため、検出器がないときのボヘミア軌道の到着時刻が検出器の存在下でのそれと一致し、さらに検出時間と一致することは当然あり得ない。 特に、Ds と D\"urr [arXiv:1802.07141] がスピンを持つ場合の検出時間の分布として表す特定の分布は、前述の3回全てに一致すると仮定すると、実際にボヘミア力学が予測するものではない。

How to compute the probability distribution of a detection time, i.e., of the time which a detector registers as the arrival time of a quantum particle, is a long-debated problem. In this regard, Bohmian mechanics provides in a straightforward way the distribution of the time at which the particle actually does arrive at a given surface in 3-space in the absence of detectors. However, as we discuss here, since the presence of detectors can change the evolution of the wave function and thus the particle trajectories, it cannot be taken for granted that the arrival time of the Bohmian trajectories in the absence of detectors agrees with the one in the presence of detectors, and even less with the detection time. In particular, we explain why certain distributions that Das and D\"urr [arXiv:1802.07141] presented as the distribution of the detection time in a case with spin, based on assuming that all three times mentioned coincide, is actually not what Bohmian mechanics predicts.
翻訳日:2024-07-12 22:48:00 公開日:2024-07-11
# BenthicNet: ディープラーニングアプリケーションのための海底画像のグローバルコンパイル

BenthicNet: A global compilation of seafloor images for deep learning applications ( http://arxiv.org/abs/2405.05241v2 )

ライセンス: Link先を確認
Scott C. Lowe, Benjamin Misiuk, Isaac Xu, Shakhboz Abdulazizov, Amit R. Baroi, Alex C. Bastos, Merlin Best, Vicki Ferrini, Ariell Friedman, Deborah Hart, Ove Hoegh-Guldberg, Daniel Ierodiaconou, Julia Mackin-McLaughlin, Kathryn Markey, Pedro S. Menandro, Jacquomo Monk, Shreya Nemani, John O'Brien, Elizabeth Oh, Luba Y. Reshitnyk, Katleen Robert, Chris M. Roelfsema, Jessica A. Sameoto, Alexandre C. G. Schimel, Jordan A. Thomson, Brittany R. Wilson, Melisa C. Wong, Craig J. Brown, Thomas Trappenberg, (参考訳) 水中イメージングの進歩により、重要な底生生態系のモニタリングに必要な広範な海底画像データセットの収集が可能になる。 海底画像の収集能力は我々の分析能力を大きく上回っており、この重要な環境情報の頻繁な動員を妨げる。 最近の機械学習アプローチは、海底画像データセットを解析する効率を高める機会を提供するが、そのようなアプローチの開発を支援するのに必要な大規模で一貫したデータセットは乏しい。 本稿では,大規模な画像認識モデルの訓練と評価を支援するために設計された海底画像のグローバルコンパイルであるBenthicNetを紹介する。 最初の11.4万枚以上の画像が収集され、13万枚以上の画像からなる代表的サブセットを用いて海底環境の多様性を表現するためにキュレーションされた。 これらは、画像の190,000に及ぶCATAMIスキームに翻訳された260万のアノテーションを伴っている。 このコンパイルに基づいて大規模なディープラーニングモデルをトレーニングし,その予備的な結果から,大規模かつ小規模の画像解析タスクの自動化に有効であることが示唆された。 コンパイルとモデルは、科学コミュニティによってhttps://doi.org/10.20383/103.0614で公開されている。

Advances in underwater imaging enable the collection of extensive seafloor image datasets that are necessary for monitoring important benthic ecosystems. The ability to collect seafloor imagery has outpaced our capacity to analyze it, hindering expedient mobilization of this crucial environmental information. Recent machine learning approaches provide opportunities to increase the efficiency with which seafloor image datasets are analyzed, yet large and consistent datasets necessary to support development of such approaches are scarce. Here we present BenthicNet: a global compilation of seafloor imagery designed to support the training and evaluation of large-scale image recognition models. An initial set of over 11.4 million images was collected and curated to represent a diversity of seafloor environments using a representative subset of 1.3 million images. These are accompanied by 2.6 million annotations translated to the CATAMI scheme, which span 190,000 of the images. A large deep learning model was trained on this compilation and preliminary results suggest it has utility for automating large and small-scale image analysis tasks. The compilation and model are made openly available for use by the scientific community at https://doi.org/10.20383/103.0614.
翻訳日:2024-07-12 22:48:00 公開日:2024-07-11
# RPBG: 野生におけるロバストなニューラルポイントベースのグラフィクスを目指して

RPBG: Towards Robust Neural Point-based Graphics in the Wild ( http://arxiv.org/abs/2405.05663v2 )

ライセンス: Link先を確認
Qingtian Zhu, Zizhuang Wei, Zhongtian Zheng, Yifan Zhan, Zhuyu Yao, Jiawang Zhang, Kejian Wu, Yinqiang Zheng, (参考訳) ポイントベースの表現は、例えば、直観的幾何学的表現、単純な操作、より高速な収束といった独特の利点により、近年、新しいビュー合成において人気を集めている。 しかし,これらの点に基づくニューラルリレンダリング手法は,理想的な条件下では良好に動作することが期待され,ノイズ,パッチ,非バウンドシーンに悩まされ,実際のアプリケーションでよく見られるデファクト処理は困難である。 この目的のために,我々はベースラインとしてNeural Point-based Graphics (NPBG) と呼ばれる重要な手法を再検討し,Robust Point-based Graphics (RPBG) を提案する。 我々はNABGが汎用データセット上で満足なレンダリングを達成するのを防ぐ要因を詳細に分析し、それに従ってパイプラインを改革し、さまざまなデータセットに対してより堅牢にします。 画像復元の実践にインスパイアされた我々は、ニューラルレンダラーを大幅に強化し、注意に基づく点視認性補正と不完全なラスタライゼーションの着色を可能にする。 また, 環境モデリングの簡易かつ軽量な代替手段と, 貧弱な幾何学的問題を緩和するための反復的手法も求めている。 異なる撮影条件とカメラ軌道を持つ幅広いデータセットを徹底的に評価することにより、RPBGはベースラインを大きなマージンで安定的に上回り、最先端のNeRFベースの変種に対して大きな堅牢性を示す。 コードはhttps://github.com/QT-Zhu/RPBGで公開されている。

Point-based representations have recently gained popularity in novel view synthesis, for their unique advantages, e.g., intuitive geometric representation, simple manipulation, and faster convergence. However, based on our observation, these point-based neural re-rendering methods are only expected to perform well under ideal conditions and suffer from noisy, patchy points and unbounded scenes, which are challenging to handle but defacto common in real applications. To this end, we revisit one such influential method, known as Neural Point-based Graphics (NPBG), as our baseline, and propose Robust Point-based Graphics (RPBG). We in-depth analyze the factors that prevent NPBG from achieving satisfactory renderings on generic datasets, and accordingly reform the pipeline to make it more robust to varying datasets in-the-wild. Inspired by the practices in image restoration, we greatly enhance the neural renderer to enable the attention-based correction of point visibility and the inpainting of incomplete rasterization, with only acceptable overheads. We also seek for a simple and lightweight alternative for environment modeling and an iterative method to alleviate the problem of poor geometry. By thorough evaluation on a wide range of datasets with different shooting conditions and camera trajectories, RPBG stably outperforms the baseline by a large margin, and exhibits its great robustness over state-of-the-art NeRF-based variants. Code available at https://github.com/QT-Zhu/RPBG.
翻訳日:2024-07-12 22:48:00 公開日:2024-07-11
# クラスインクリメンタルセマンティックセグメンテーションにおける現実的なインクリメンタルシナリオに向けて

Towards Realistic Incremental Scenario in Class Incremental Semantic Segmentation ( http://arxiv.org/abs/2405.09858v2 )

ライセンス: Link先を確認
Jihwan Kwak, Sungmin Cha, Taesup Moon, (参考訳) 本稿では,CISS(Continuous Incremental Semantic Segmentation)シナリオの非現実的な側面について述べる。 重なり合うことで、実際の漸進的な学習シナリオとは程遠い、異なるピクセルラベルで、同じイメージが将来のタスクに再び現れることが指摘されている。 さらに、この欠陥のあるシナリオは、CISSでよく使われている2つの手法、擬似ラベル付けと模範記憶の偏りを生じさせ、特定の手法に意図しない利点や欠点をもたらす可能性があると確認した。 これを軽減するために、パーティショニングと呼ばれる実用的なシナリオを提案し、まずデータセットを各クラスを表す個別のサブセットに分割し、次に各サブセットを対応するタスクに割り当てる。 これは、背景シフトのキャプチャなど、CISSシナリオの要件を満たしながら、上記の問題に効果的に対処する。 さらに,従来の研究では無視されていたメモリからデータを取得する際のコード実装の問題に対処する。 最後に,メモリ上でのタスクのバックグラウンドシフトを処理するシンプルなメモリベースベースラインであるMiB-AugMを紹介する。 このベースラインは、多数の新しいクラスを学ぶことを含む複数のタスクにまたがる最先端の結果を達成する。

This paper addresses the unrealistic aspect of the commonly adopted Continuous Incremental Semantic Segmentation (CISS) scenario, termed overlapped. We point out that overlapped allows the same image to reappear in future tasks with different pixel labels, which is far from practical incremental learning scenarios. Moreover, we identified that this flawed scenario may lead to biased results for two commonly used techniques in CISS, pseudo-labeling and exemplar memory, resulting in unintended advantages or disadvantages for certain techniques. To mitigate this, a practical scenario called partitioned is proposed, in which the dataset is first divided into distinct subsets representing each class, and then the subsets are assigned to each corresponding task. This efficiently addresses the issue above while meeting the requirement of CISS scenario, such as capturing the background shifts. Furthermore, we identify and address the code implementation issues related to retrieving data from the exemplar memory, which was ignored in previous works. Lastly, we introduce a simple yet competitive memory-based baseline, MiB-AugM, that handles background shifts of current tasks in the exemplar memory. This baseline achieves state-of-the-art results across multiple tasks involving learning numerous new classes.
翻訳日:2024-07-12 22:48:00 公開日:2024-07-11
# POMDPの最適報酬は何か?

What should be observed for optimal reward in POMDPs? ( http://arxiv.org/abs/2405.10768v2 )

ライセンス: Link先を確認
Alyzia-Maria Konsta, Alberto Lluch Lafuente, Christoph Matheja, (参考訳) 部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実な環境で決定を行うエージェントの標準モデルである。 POMDPに関するほとんどの研究は、利用可能な能力に基づいて戦略を合成することに焦点を当てている。 しかしシステムデザイナは、例えばセンサーを設置したり、選択したりすることで、エージェントの観測能力を制御できることが多い。 これにより、目的を達成するために、どのようにエージェントのセンサーを費用対効果で選択すべきかという疑問が持ち上がる。 本稿では,新しい最適可観測性問題OOPについて考察する: POMDP M が与えられた予算内で M の観測能力を変えて,その(最小限の)報奨が与えられた閾値以下であるようにする方法。 位置戦略のみを考慮すると、一般には決定不可能であり、決定不可能であることを示す。 まず,Mのマルコフ決定過程の最適戦略と,SMTを用いたパラメータ合成に基づく2つのアルゴリズムを提案する。 典型例の変種について,POMDP文献から有望な結果を得た。

Partially observable Markov Decision Processes (POMDPs) are a standard model for agents making decisions in uncertain environments. Most work on POMDPs focuses on synthesizing strategies based on the available capabilities. However, system designers can often control an agent's observation capabilities, e.g. by placing or selecting sensors. This raises the question of how one should select an agent's sensors cost-effectively such that it achieves the desired goals. In this paper, we study the novel optimal observability problem OOP: Given a POMDP M, how should one change M's observation capabilities within a fixed budget such that its (minimal) expected reward remains below a given threshold? We show that the problem is undecidable in general and decidable when considering positional strategies only. We present two algorithms for a decidable fragment of the OOP: one based on optimal strategies of M's underlying Markov decision process and one based on parameter synthesis with SMT. We report promising results for variants of typical examples from the POMDP literature.
翻訳日:2024-07-12 22:37:59 公開日:2024-07-11
# Visible and Clear: 異なるマップで小さなオブジェクトを見つける

Visible and Clear: Finding Tiny Objects in Difference Map ( http://arxiv.org/abs/2405.11276v2 )

ライセンス: Link先を確認
Bing Cao, Haiyu Yao, Pengfei Zhu, Qinghua Hu, (参考訳) 細い物体検出は、物体検出の分野における重要な課題の1つである。 ほとんどのジェネリック検出器の性能は、小さな物体検出タスクで劇的に低下する。 主な課題は、小さな物体の効果的な特徴を抽出することである。 既存の手法は通常、ジェネレーションベースの機能拡張を実行するが、これはスプリケートなテクスチャやアーティファクトの影響を深刻に受けており、小さなオブジェクト固有の特徴を目に見えるようにし、検出するのが困難である。 そこで本研究では,自己再構成型小型物体検出(SR-TOD)フレームワークを提案する。 検出モデルに自己再構成機構を初めて導入し,それと微小物体との強い相関関係を明らかにする。 具体的には、再構成画像と入力の差分マップを構築して、検出器の首の内側に再構成ヘッドを配置し、小さな物体に対して高い感度を示す。 このことは、差分写像の誘導の下で小さな物体の弱い表現を強化するきっかけとなる。 これにより、検出器用の小さな物体の視認性を向上させることができる。 これに基づいて、我々は、小さな特徴表現をより明確にするための差分マップガイド機能拡張(DGFE)モジュールをさらに開発する。 さらに,DroneSwarmsデータセットと呼ばれる新しいマルチインスタンス対UAVデータセットを提案する。 DroneSwarmsデータセットや他のデータセットに関する大規模な実験は、提案手法の有効性を実証している。 コードとデータセットが公開される。

Tiny object detection is one of the key challenges in the field of object detection. The performance of most generic detectors dramatically decreases in tiny object detection tasks. The main challenge lies in extracting effective features of tiny objects. Existing methods usually perform generation-based feature enhancement, which is seriously affected by spurious textures and artifacts, making it difficult to make the tiny-object-specific features visible and clear for detection. To address this issue, we propose a self-reconstructed tiny object detection (SR-TOD) framework. We for the first time introduce a self-reconstruction mechanism in the detection model, and discover the strong correlation between it and the tiny objects. Specifically, we impose a reconstruction head in-between the neck of a detector, constructing a difference map of the reconstructed image and the input, which shows high sensitivity to tiny objects. This inspires us to enhance the weak representations of tiny objects under the guidance of the difference maps. Thus, improving the visibility of tiny objects for the detectors. Building on this, we further develop a Difference Map Guided Feature Enhancement (DGFE) module to make the tiny feature representation more clear. In addition, we further propose a new multi-instance anti-UAV dataset, which is called DroneSwarms dataset and contains a large number of tiny drones with the smallest average size to date. Extensive experiments on the DroneSwarms dataset and other datasets demonstrate the effectiveness of the proposed method. The code and dataset will be publicly available.
翻訳日:2024-07-12 22:37:59 公開日:2024-07-11
# VR-GPT:インテリジェント仮想現実アプリケーションのためのビジュアル言語モデル

VR-GPT: Visual Language Model for Intelligent Virtual Reality Applications ( http://arxiv.org/abs/2405.11537v2 )

ライセンス: Link先を確認
Mikhail Konenkov, Artem Lykov, Daria Trinitatova, Dzmitry Tsetserukou, (参考訳) 没入型バーチャルリアリティアプリケーションの出現は、さまざまな領域を変えてきたが、Visual Language Modelsのような先進的な人工知能技術との統合はまだ検討されていない。 本研究は,VR環境におけるVLMを活用したユーザインタラクションとタスク効率向上のための先駆的アプローチを提案する。 本システムは,Unityエンジンとカスタム開発VLMを活用することで,視覚的テキスト命令に頼ることなく,自然言語処理によるリアルタイム,直感的なユーザインタラクションを実現する。 音声・テキスト・テキスト・音声技術の導入により、ユーザとVLM間のシームレスなコミュニケーションが可能となり、複雑なタスクを効果的に導くことができる。 予備実験の結果, VLMの使用は, 作業完了時間を短縮するだけでなく, 従来のVRインタラクション手法と比較して, ユーザの快適さやタスクエンゲージメントを向上させることが示唆された。

The advent of immersive Virtual Reality applications has transformed various domains, yet their integration with advanced artificial intelligence technologies like Visual Language Models remains underexplored. This study introduces a pioneering approach utilizing VLMs within VR environments to enhance user interaction and task efficiency. Leveraging the Unity engine and a custom-developed VLM, our system facilitates real-time, intuitive user interactions through natural language processing, without relying on visual text instructions. The incorporation of speech-to-text and text-to-speech technologies allows for seamless communication between the user and the VLM, enabling the system to guide users through complex tasks effectively. Preliminary experimental results indicate that utilizing VLMs not only reduces task completion times but also improves user comfort and task engagement compared to traditional VR interaction methods.
翻訳日:2024-07-12 22:37:59 公開日:2024-07-11
# CoR-GS: Sparse-View 3D Gaussian Splatting by Co-Regularization

CoR-GS: Sparse-View 3D Gaussian Splatting via Co-Regularization ( http://arxiv.org/abs/2405.12110v2 )

ライセンス: Link先を確認
Jiawei Zhang, Jiahe Li, Xiaohan Yu, Lei Huang, Lin Gu, Jin Zheng, Xiao Bai, (参考訳) 3Dガウススティング(3DGS)は、シーンを表現するために3Dガウスアンからなる放射場を生成する。 微妙なトレーニングビューでは、3DGSは過度にフィットし、レンダリングに悪影響を及ぼす。 本稿では、スパースビュー3DGSを改善するための新しい協調正規化視点を提案する。 2つの3次元ガウス放射場を訓練すると、2つの放射場は、密度化のランダム性に起因して、教師なしで再現品質を予測できる点不一致とレンダリング不一致を示すことが観察される。 さらに,2つの相違点を定量化し,両者の負の相関関係と正確な再現性を示す。 本研究では,(1)コ・プルーニングは,不正確な位置において高い点の不一致を示すガウスを考慮し,その不正確な位置において不正確な復元を抑えるCoR-GSを提案する。 2) Pseudo-view co-regularization では,高いレンダリング不一致を示す画素は不正確であり,不一致を抑制する。 LLFF, Mip-NeRF360, DTU, Blenderの結果, CoR-GSはシーン形状を効果的に調整し, コンパクトな表現を再構築し, スパーストレーニングビュー下での最先端のノベルビュー合成品質を実現することを示した。

3D Gaussian Splatting (3DGS) creates a radiance field consisting of 3D Gaussians to represent a scene. With sparse training views, 3DGS easily suffers from overfitting, negatively impacting rendering. This paper introduces a new co-regularization perspective for improving sparse-view 3DGS. When training two 3D Gaussian radiance fields, we observe that the two radiance fields exhibit point disagreement and rendering disagreement that can unsupervisedly predict reconstruction quality, stemming from the randomness of densification implementation. We further quantify the two disagreements and demonstrate the negative correlation between them and accurate reconstruction, which allows us to identify inaccurate reconstruction without accessing ground-truth information. Based on the study, we propose CoR-GS, which identifies and suppresses inaccurate reconstruction based on the two disagreements: (1) Co-pruning considers Gaussians that exhibit high point disagreement in inaccurate positions and prunes them. (2) Pseudo-view co-regularization considers pixels that exhibit high rendering disagreement are inaccurate and suppress the disagreement. Results on LLFF, Mip-NeRF360, DTU, and Blender demonstrate that CoR-GS effectively regularizes the scene geometry, reconstructs the compact representations, and achieves state-of-the-art novel view synthesis quality under sparse training views.
翻訳日:2024-07-12 22:37:59 公開日:2024-07-11
# Clap: Plonkishの証明システムのためのセマンティックな保存最適化eDSL

Clap: a Semantic-Preserving Optimizing eDSL for Plonkish Proof Systems ( http://arxiv.org/abs/2405.12115v2 )

ライセンス: Link先を確認
Marco Stronati, Denis Firsov, Antonio Locascio, Benjamin Livshits, (参考訳) Plonkishは、ブロックチェーン分野の主要なプロジェクトの多くを動かすゼロ知識証明システムを開発するための、人気の回路フォーマットだ。 ゼロ知識のロールアップを含むこれらのプロジェクトは、高度に手動最適化された回路に依存している。 本稿では,最初のRust eDSLであるClapについて,拡張性,自動最適化,および結果制約系に対する形式保証の容易化を図った。 クラップは、意味保存型コンパイル問題として、プロンキッシュの制約システムとその目撃者生成システムを生成するという問題を論じている。 変換の健全性と完全性は、過度な制約や過度な制約によって引き起こされる微妙なバグがないことを保証する。 実験により,手動回路の最適化と比較して,自動最適化により性能が向上することが示された。 また、オプティマイザは回路記述からカスタムゲートを自動的に引き出すためにも使用することができる。

Plonkish is a popular circuit format for developing zero-knowledge proof systems that powers a number of major projects in the blockchain space, responsible for holding billions of dollars and processing millions of transactions per day. These projects, including zero-knowledge rollups, rely on highly hand-optimized circuits whose correctness comes at the cost of time-consuming testing and auditing. In this paper, we present Clap, the first Rust eDSL with a proof system agnostic circuit format, facilitating extensibility, automatic optimizations, and formal assurances for the resultant constraint system. Clap casts the problem of producing Plonkish constraint systems and their witness generators as a semantic-preserving compilation problem. Soundness and completeness of the transformation guarantees the absence of subtle bugs caused by under- or over-constraining. Our experimental evaluation shows that its automatic optimizations achieve better performance compared to manual circuit optimization. The optimizer can also be used to automatically derive custom gates from circuit descriptions.
翻訳日:2024-07-12 22:37:59 公開日:2024-07-11
# データの混合が効率的になった: 言語モデルの事前学習のための二変量スケーリング法

Data Mixing Made Efficient: A Bivariate Scaling Law for Language Model Pretraining ( http://arxiv.org/abs/2405.14908v2 )

ライセンス: Link先を確認
Ce Ge, Zhijian Ma, Daoyuan Chen, Yaliang Li, Bolin Ding, (参考訳) 大規模言語モデルは、多種多様なソースデータの利用に起因して、例外的な一般化能力を示す。 しかし、これらの多様なデータを統合する慣習は、理論的なガイダンスを欠いたヒューリスティックなスキームに大きく依存している。 本研究は、データキュレーションを合理化してトレーニング効率を向上させることを目的として、データ混合物の低コストプロキシに基づく戦略を検証することにより、これらの制限に対処する。 具体的には、データ量と混合比の2変量スケーリング挙動を正確にモデル化する、$\textbf{BiMix}$という統一スケーリング法則を提案する。 体系的な実験を行い、予測力と$\textbf{BiMix}$の基本的な原理の実証的な証拠を提供する。 特に,エントロピー駆動のトレーニングフリーなデータ混合は,リソース集約的な手法に比べて,同等あるいはそれ以上のパフォーマンスを達成できることがわかった。 我々は、我々の定量的洞察が、コスト効率のよい言語モデリングにおけるさらなる司法研究と開発に光を当てることを願っている。

Large language models exhibit exceptional generalization capabilities, primarily attributed to the utilization of diversely sourced data. However, conventional practices in integrating this diverse data heavily rely on heuristic schemes, lacking theoretical guidance. This research tackles these limitations by investigating strategies based on low-cost proxies for data mixtures, with the aim of streamlining data curation to enhance training efficiency. Specifically, we propose a unified scaling law, termed $\textbf{BiMix}$, which accurately models the bivariate scaling behaviors of both data quantity and mixing proportions. We conduct systematic experiments and provide empirical evidence for the predictive power and fundamental principles of $\textbf{BiMix}$. Notably, our findings reveal that entropy-driven training-free data mixtures can achieve comparable or even better performance than more resource-intensive methods. We hope that our quantitative insights can shed light on further judicious research and development in cost-effective language modeling.
翻訳日:2024-07-12 22:37:59 公開日:2024-07-11
# シリコン一重項スピン量子ビットにおける動的補正ゲート

Dynamically corrected gates in silicon singlet-triplet spin qubits ( http://arxiv.org/abs/2405.15148v2 )

ライセンス: Link先を確認
Habitamu Y. Walelign, Xinxin Cai, Bikun Li, Edwin Barnes, John M. Nichol, (参考訳) フォールトトレラント量子計算では物理量子ビットゲート誤差が低い。 ハードウェアおよび制御最適化戦略を含むゲートエラーを低減するための多くのアプローチが存在する。 動的に修正されたゲートは、特定のエラーをキャンセルし、高忠実度ゲートの可能性を提供するように設計されているが、これらの系における厳密な制御制約のために、半導体量子ドットにおけるシングルトリップスピン量子ビットではまだ実装されていない。 本研究では、Si/SiGe二重量子ドットで実現したシングルトリップ量子ビットにおける超微細ノイズを軽減するために設計された動的修正ゲートを実験的に実装する。 修正されたゲートは不忠実度を約3倍に減らし、その結果、アイデンティティとアダマールゲートの両方で0.99以上となる。 ゲート性能はパルス歪みに敏感に依存し,その特性は実験装置の予期せぬ歪みを示す。

Fault-tolerant quantum computation requires low physical-qubit gate errors. Many approaches exist to reduce gate errors, including both hardware- and control-optimization strategies. Dynamically corrected gates are designed to cancel specific errors and offer the potential for high-fidelity gates, but they have yet to be implemented in singlet-triplet spin qubits in semiconductor quantum dots, due in part to the stringent control constraints in these systems. In this work, we experimentally implement dynamically corrected gates designed to mitigate hyperfine noise in a singlet-triplet qubit realized in a Si/SiGe double quantum dot. The corrected gates reduce infidelities by about a factor of three, resulting in gate fidelities above 0.99 for both identity and Hadamard gates. The gate performances depend sensitively on pulse distortions, and their specific performance reveals an unexpected distortion in our experimental setup.
翻訳日:2024-07-12 22:37:59 公開日:2024-07-11
# データによるペトリネットのバイリーチ性

Bi-reachability in Petri nets with data ( http://arxiv.org/abs/2405.16176v2 )

ライセンス: Link先を確認
Łukasz Kamiński, Sławomir Lasota, (参考訳) 我々はペトリネットをデータで調べ、トークンが無限のデータ領域から値を運ぶ平らなペトリネットを拡張し、トランジションの実行性はデータ値間の等式によって条件付けられる。 ペトリネットとその2つの構成が与えられた場合、それぞれの構成が他方から到達可能かどうかを問う。 このことは、双到達性問題(英語版)がカバー可能性問題(決定可能であることが知られている)を仮定し、到達可能性問題(決定可能性のステータスが不明である)によって仮定されるため、決定可能性境界線を推し進める。

We investigate Petri nets with data, an extension of plain Petri nets where tokens carry values from an infinite data domain, and executability of transitions is conditioned by equalities between data values. We provide a decision procedure for the bi-reachability problem: given a Petri net and its two configurations, we ask if each of the configurations is reachable from the other. This pushes forward the decidability borderline, as the bi-reachability problem subsumes the coverability problem (which is known to be decidable) and is subsumed by the reachability problem (whose decidability status is unknown).
翻訳日:2024-07-12 22:37:59 公開日:2024-07-11
# AbstractBeam: ライブラリ学習によるボトムアッププログラム合成の強化

AbstractBeam: Enhancing Bottom-Up Program Synthesis using Library Learning ( http://arxiv.org/abs/2405.17514v2 )

ライセンス: Link先を確認
Janis Zenkner, Lukas Dierkes, Tobias Sesterhenn, Chrisitan Bartelt, (参考訳) LambdaBeamは、高階関数、ラムダ関数、反復ループをドメイン特化言語(DSL)に組み込む、プログラム合成のための最先端の実行誘導アルゴリズムである。 LambdaBeamは最初からすべてのプログラムを生成する。 しかし、多くのプログラムブロックやサブプログラムは、リストを横切るループなど、特定のドメインで頻繁に発生する。 したがって、繰り返しプログラムは合成アルゴリズムを強化するために使用できる。 しかし、LambdaBeamはこの可能性を活用できない。 そこで我々は,ライブラリ学習を利用した新しいプログラム合成フレームワークAbstractBeamを紹介した。このフレームワークは,プログラムの繰り返しを識別し,それらをDSLに統合し,LambdaBeamの合成アルゴリズムの強化に活用する。 実験により、AbstractBeamはLambdaBeam整数リスト操作領域におけるLambdaBeamの性能を大幅に改善することが示された。 さらに、AbstractBeamのプログラム生成はLambdaBeamの合成よりも効率的である。 最後に、図書館学習は、その利点を強調するために特別に作られたものではない領域で有効であることを示す。

LambdaBeam is a state-of-the-art execution-guided algorithm for program synthesis that incorporates higher-order functions, lambda functions, and iterative loops into the Domain-Specific Language (DSL). LambdaBeam generates every program from the start. Yet, many program blocks or subprograms occur frequently in a given domain, e.g., loops to traverse a list. Thus, repeating programs can be used to enhance the synthesis algorithm. However, LambdaBeam fails to leverage this potential. For this purpose, we introduce AbstractBeam: A novel program synthesis framework that employs Library Learning to identify such program repetitions, integrates them into the DSL, and thus utilizes their potential to boost LambdaBeam's synthesis algorithm. Our experimental evaluations demonstrate that AbstractBeam significantly improves LambdaBeam's performance in the LambdaBeam integer list manipulation domain. Additionally, AbstractBeam's program generation is more efficient compared to LambdaBeam's synthesis. Finally, our findings indicate that Library Learning is effective in domains not specifically crafted to highlight its benefits.
翻訳日:2024-07-12 22:37:59 公開日:2024-07-11
# Mini-Netによる医用画像分割の促進:医用画像の効率的な分別を目的とした軽量化

Advancing Medical Image Segmentation with Mini-Net: A Lightweight Solution Tailored for Efficient Segmentation of Medical Images ( http://arxiv.org/abs/2405.17520v2 )

ライセンス: Link先を確認
Syed Javed, Tariq M. Khan, Abdul Qayyum, Arcot Sowmya, Imran Razzak, (参考訳) 医用画像における解剖学的構造と異常の正確なセグメンテーションは,コンピュータによる診断・解析に不可欠である。 このタスクではディープラーニングの技術が優れていますが、その計算要求は課題を引き起こします。 また, 一般的な物体分割には有効であるが, 医用画像には最適でない部分分割法もある。 これらの課題に対処するために,医用画像に特化して設計された軽量セグメンテーションネットワークであるMini-Netを提案する。 パラメータが38,000未満のMini-Netは、高周波数と低周波数の両方の機能を効率的にキャプチャし、様々な医療画像シナリオにおけるリアルタイムのアプリケーションを可能にする。 DRIVE, STARE, ISIC-2016, ISIC-2018, MoNuSegなどの各種データセット上でMini-Netを評価し, 最先端手法と比較して, その堅牢性と優れた性能を示す。

Accurate segmentation of anatomical structures and abnormalities in medical images is crucial for computer-aided diagnosis and analysis. While deep learning techniques excel at this task, their computational demands pose challenges. Additionally, some cutting-edge segmentation methods, though effective for general object segmentation, may not be optimised for medical images. To address these issues, we propose Mini-Net, a lightweight segmentation network specifically designed for medical images. With fewer than 38,000 parameters, Mini-Net efficiently captures both high- and low-frequency features, enabling real-time applications in various medical imaging scenarios. We evaluate Mini-Net on various datasets, including DRIVE, STARE, ISIC-2016, ISIC-2018, and MoNuSeg, demonstrating its robustness and good performance compared to state-of-the-art methods.
翻訳日:2024-07-12 22:37:59 公開日:2024-07-11
# SpecTra: マルチモーダル仕様の生成による言語モデルのコード翻訳能力の向上

SpecTra: Enhancing the Code Translation Ability of Language Models by Generating Multi-Modal Specifications ( http://arxiv.org/abs/2405.18574v2 )

ライセンス: Link先を確認
Vikram Nitin, Rahul Krishna, Baishakhi Ray, (参考訳) 大規模言語モデル(LLM)は、重要な現実世界のアプリケーションを持つ自動コード翻訳のタスクにますます使われています。 しかし、既存のほとんどのアプローチでは、プログラムのソースコードのみを LLM への入力として使用しており、プログラムから抽出できる異なる種類の仕様を考慮していない。 本稿では、新しい自己整合性フィルタを用いて、与えられたプログラムから高品質な静的な仕様、テストケース、自然言語記述を生成するマルチステージアプローチであるSpecTraを提案する。 私たちは、C to Rust、C to Go、JavaScript to TypeScriptの3つのコード翻訳タスクでSpecTraを評価し、これらのタスクで6つの人気のあるLCMのパフォーマンスを最大10ポイント向上し、相対的な改善が26\%であることを示す。 コード翻訳におけるLCMの性能向上には,高品質な仕様作成が有望かつ効率的な方法である可能性が示唆された。 コードとデータを公開し、匿名化してレビューします。

Large language models (LLMs) are increasingly being used for the task of automated code translation, which has important real-world applications. However, most existing approaches use only the source code of a program as an input to an LLM, and do not consider the different kinds of specifications that can be extracted from a program. In this paper, we propose SpecTra, a multi-stage approach that uses a novel self-consistency filter to first generate high-quality static specifications, test cases, and natural language descriptions from a given program, and then uses these along with the source code to improve the quality of LLM-generated translations. We evaluate SpecTra on three code translation tasks - C to Rust, C to Go, and JavaScript to TypeScript - and show that it can enhance the performance of six popular LLMs on these tasks by up to 10 percentage points and a relative improvement of 26\%. Our research suggests that generating high-quality specifications could be a promising and efficient way to improve the performance of LLMs for code translation. We make our code and data available, anonymized for review.
翻訳日:2024-07-12 22:37:59 公開日:2024-07-11
# ハーモニックトラップ電位内に置かれた重力波検出器における量子重力信号

Quantum gravity signatures in gravitational wave detectors placed inside a harmonic trap potential ( http://arxiv.org/abs/2405.18868v2 )

ライセンス: Link先を確認
Soham Sen, Sunandan Gangopadhyay, Sukanta Bhattacharyya, (参考訳) 本研究は,高調波トラップ内にのみ設置された偏光と入ってくる重力波と相互作用する重力波の一般重力波検出器について考察する。 このモデルは、重力波の共鳴検出器の記述とよく一致する。 よく知られた検出器-重力波相互作用のシナリオは、検出器を量子力学的に扱う半古典的な手法を用いるが、重力波は古典的なレベルで考えることができる。 解析では、重力波の摂動の離散モード分解を用いて、重力波と調和振動子に対応する運動量演算子の位置と運動量演算子を含むハミルトニアンを導出する。 そして、初期状態から未知の最終状態に移行するための高調波振動子-重力波テンソル積状態の遷移確率を計算した。 重力波のエネルギーフラックス関係を用いて、全エネルギーを検出器の初期状態における重力子数の組み合わせとして考えると、共鳴吸収の場合の遷移確率は半古典吸収の場合と全く同じ解析形式を取る。 本モデルでは, 半古典的アンカルージに完全に欠落した単一重力子の自然放出を観測した。 したがって、これは線型化された量子重力の直接的なシグネチャを与える。

In this work, we consider a general gravitational wave detector of gravitational wave interacting with an incoming gravitational wave carrying plus polarization only placed inside a harmonic trap. This model can be well acquainted with the description of a resonant detector of gravitational wave as well. The well known detector-gravitational wave interaction scenario uses the method of a semi classical approach where the detector is treated quantum mechanically but the gravitational wave is considered at a classical level. In our analysis, we use a discrete mode decomposition of the gravitational wave perturbation which results in a Hamiltonian involving the position and momentum operators corresponding to the gravitational wave and the harmonic oscillator. We have then calculated the transition probability for the harmonic oscillator-gravitational wave tensor product state for going from an initial state to some unknown final state. Using the energy flux relation of the gravitational waves, we observe that if we consider the total energy as a combination of the number of gravitons in the initial state of the detector then the transition probability for the resonant absorption case scenario takes the analytical form which is exactly similar to the semi-classical absorption case. In case of the emission scenario, we observe a spontaneous emission of a single graviton which was completely absent in the semi-classical analouge of this model. This therefore gives a direct signature of linearized quantum gravity.
翻訳日:2024-07-12 22:37:59 公開日:2024-07-11
# MOFA-Video:凍結画像-映像拡散モデルにおける生成運動場適応による制御可能な画像アニメーション

MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model ( http://arxiv.org/abs/2405.20222v3 )

ライセンス: Link先を確認
Muyao Niu, Xiaodong Cun, Xintao Wang, Yong Zhang, Ying Shan, Yinqiang Zheng, (参考訳) 提案するMOFA-Videoは,人間のランドマーク参照や手動軌跡,さらには提供されるビデオなど,さまざまな制御可能な信号を用いて,所定の画像から映像を生成する,高度な制御可能な画像アニメーション手法である。 これは、特定の運動領域でしか動作できない、あるいは拡散前の弱い制御能力を示す従来の方法とは異なる。 この目的を達成するために、ビデオ生成パイプラインで生成された動きを制御するために複数のドメイン対応モーションフィールドアダプタ (\ie, MOFA-Adapters) を設計する。 MOFA-Adapters では,映像の時間的動きの整合性を考慮し,まず所定のスパース制御条件から濃密な動きの流れを発生させ,その画像のマルチスケール特徴を安定した映像拡散生成のためのガイド機能としてラップする。 我々は手動の軌跡と人間のランドマークの2つのモーションアダプタを個別に訓練する。 トレーニングの後、異なるドメインのMOFA-Adaptersは、より制御可能なビデオ生成のために協力することもできます。 Project Page: https://myniuuu.github.io/MOFA_Video/

We present MOFA-Video, an advanced controllable image animation method that generates video from the given image using various additional controllable signals (such as human landmarks reference, manual trajectories, and another even provided video) or their combinations. This is different from previous methods which only can work on a specific motion domain or show weak control abilities with diffusion prior. To achieve our goal, we design several domain-aware motion field adapters (\ie, MOFA-Adapters) to control the generated motions in the video generation pipeline. For MOFA-Adapters, we consider the temporal motion consistency of the video and generate the dense motion flow from the given sparse control conditions first, and then, the multi-scale features of the given image are wrapped as a guided feature for stable video diffusion generation. We naively train two motion adapters for the manual trajectories and the human landmarks individually since they both contain sparse information about the control. After training, the MOFA-Adapters in different domains can also work together for more controllable video generation. Project Page: https://myniuuu.github.io/MOFA_Video/
翻訳日:2024-07-12 22:37:59 公開日:2024-07-11
# 深部SSMアーキテクチャに対する長さ独立一般化境界

Length independent generalization bounds for deep SSM architectures ( http://arxiv.org/abs/2405.20278v2 )

ライセンス: Link先を確認
Dániel Rácz, Mihály Petreczky, Bálint Daróczy, (参考訳) 長距離シーケンスでトレーニングされた多くの最先端モデル(S4、S5、LRU)は、ステートスペースモデル(SSM)とニューラルネットワークを組み合わせたシーケンシャルブロックで構成されている。 本稿では,安定なSSMブロックを持つアーキテクチャにおいて,入力シーケンスの長さに依存しないPACバウンダリを提案する。 SSMブロックの安定性を損なうことは、文学における標準的な慣行であり、パフォーマンスを補助することが知られている。 提案手法は,SSMブロックの安定性が増大するにつれてPAC境界が減少するにつれて,安定なSSMブロックの使用を理論的に正当化するものである。

Many state-of-the-art models trained on long-range sequences, for example S4, S5 or LRU, are made of sequential blocks combining State-Space Models (SSMs) with neural networks. In this paper we provide a PAC bound that holds for these kind of architectures with stable SSM blocks and does not depend on the length of the input sequence. Imposing stability of the SSM blocks is a standard practice in the literature, and it is known to help performance. Our results provide a theoretical justification for the use of stable SSM blocks as the proposed PAC bound decreases as the degree of stability of the SSM blocks increases.
翻訳日:2024-07-12 22:37:59 公開日:2024-07-11
# LLMによる論理的推論 - ツール項目の選択

A Closer Look at Logical Reasoning with LLMs: The Choice of Tool Matters ( http://arxiv.org/abs/2406.00284v2 )

ライセンス: Link先を確認
Long Hei Matthew Lam, Ramya Keerthy Thatikonda, Ehsan Shareghi, (参考訳) 大規模言語モデル(LLM)の出現は、論理的推論タスクを効果的に解く上で、有望な進歩を示している。 いくつかの最近のアプローチでは、LLMの役割を推論子から自然言語文と記号表現の間の翻訳子に変更し、それを解決するために外部シンボルソルバに送信する提案がなされている。 このパラダイムは、論理的推論(すなわち帰納的推論)の現在の最先端の結果を確立した。 しかし,これらの手法の性能のばらつきが,特定の記号解法を応用した手法に起因しているかどうかは不明である。 シンボリック・ソルバとそれらが報告された全体的なパフォーマンスにどのように影響するかは、一貫した比較が欠如している。 これは、各シンボリックソルバが独自の入力シンボリック言語を持ち、翻訳過程における様々なチャレンジの度合いを示すため重要である。 このギャップを解決するために、我々は、広く使われている記号解法であるZ3、Pyke、Prover9で拡張されたLLMを用いた3つの帰納的推論ベンチマークの実験を行った。 異なるLLMによって生成される記号翻訳のツール実行速度は、ほぼ50%の性能変化を示す。 これは、ツールの非常に基本的な選択に根ざした、パフォーマンスの大きな違いを強調します。 翻訳の実行速度とProver9の結果の精度のほぼ線形な相関は、LLMがProver9のシンボリック言語に翻訳する能力とそれらの翻訳の正確性の間に強い整合性を示す。

The emergence of Large Language Models (LLMs) has demonstrated promising progress in solving logical reasoning tasks effectively. Several recent approaches have proposed to change the role of the LLM from the reasoner into a translator between natural language statements and symbolic representations which are then sent to external symbolic solvers to resolve. This paradigm has established the current state-of-the-art result in logical reasoning (i.e., deductive reasoning). However, it remains unclear whether the variance in performance of these approaches stems from the methodologies employed or the specific symbolic solvers utilized. There is a lack of consistent comparison between symbolic solvers and how they influence the overall reported performance. This is important, as each symbolic solver also has its own input symbolic language, presenting varying degrees of challenge in the translation process. To address this gap, we perform experiments on 3 deductive reasoning benchmarks with LLMs augmented with widely used symbolic solvers: Z3, Pyke, and Prover9. The tool-executable rates of symbolic translation generated by different LLMs exhibit a near 50% performance variation. This highlights a significant difference in performance rooted in very basic choices of tools. The almost linear correlation between the executable rate of translations and the accuracy of the outcomes from Prover9 highlight a strong alignment between LLMs ability to translate into Prover9 symbolic language, and the correctness of those translations.
翻訳日:2024-07-12 22:28:14 公開日:2024-07-11
# ガウススプラッティングを用いた単眼ビデオからの自己校正4次元新しいビュー合成

Self-Calibrating 4D Novel View Synthesis from Monocular Videos Using Gaussian Splatting ( http://arxiv.org/abs/2406.01042v2 )

ライセンス: Link先を確認
Fang Li, Hao Zhang, Narendra Ahuja, (参考訳) ガウス散乱(GS)は、特にダイナミックシーンにおいて、ニューラルレイディアンス場(NeRF)と比較して、シーン再構成効率と新規ビュー合成(NVS)の精度を著しく向上させた。 しかし、GS や NeRF をベースとした現在の 4D NVS の手法は、主に COLMAP が提供するカメラパラメータに依存しており、COLMAP が生成したスパース点雲を初期化に利用している。 これは、特に大きな物体の動きのあるシーンや、大きな回転と組み合わされた小さな翻訳のような極端なカメラ条件において、動的シーンの表現が貧弱になることがある。 いくつかの研究は、市販のモデルから得られた深度、光学的流れなどの追加情報によって、カメラパラメータとシーンの推定を同時に最適化する。 この証明されていない情報を真実として使うと、堅牢性と精度が低下し、長いモノクロビデオ(例えば数百フレーム)で頻繁に発生する。 本稿では,カメラパラメータの自己校正による高忠実度 4D GS シーン表現の学習手法を提案する。 これには、3D構造を頑健に表現する2D点の特徴の抽出や、カメラパラメータと3D構造を連続的に4Dシーンの最適化に利用することが含まれる。 提案手法の精度と時間効率を,いくつかの標準ベンチマークにおける定量的,定性的な実験結果を通じて実証する。 その結果,4次元の新規なビュー合成のための最先端手法よりも顕著な改善が見られた。 ソースコードは近々https://github.com/fangli333/SC-4DGSで公開される。

Gaussian Splatting (GS) has significantly elevated scene reconstruction efficiency and novel view synthesis (NVS) accuracy compared to Neural Radiance Fields (NeRF), particularly for dynamic scenes. However, current 4D NVS methods, whether based on GS or NeRF, primarily rely on camera parameters provided by COLMAP and even utilize sparse point clouds generated by COLMAP for initialization, which lack accuracy as well are time-consuming. This sometimes results in poor dynamic scene representation, especially in scenes with large object movements, or extreme camera conditions e.g. small translations combined with large rotations. Some studies simultaneously optimize the estimation of camera parameters and scenes, supervised by additional information like depth, optical flow, etc. obtained from off-the-shelf models. Using this unverified information as ground truth can reduce robustness and accuracy, which does frequently occur for long monocular videos (with e.g. > hundreds of frames). We propose a novel approach that learns a high-fidelity 4D GS scene representation with self-calibration of camera parameters. It includes the extraction of 2D point features that robustly represent 3D structure, and their use for subsequent joint optimization of camera parameters and 3D structure towards overall 4D scene optimization. We demonstrate the accuracy and time efficiency of our method through extensive quantitative and qualitative experimental results on several standard benchmarks. The results show significant improvements over state-of-the-art methods for 4D novel view synthesis. The source code will be released soon at https://github.com/fangli333/SC-4DGS.
翻訳日:2024-07-12 22:28:14 公開日:2024-07-11
# Alice in Wonderland: State-Of-the-Art Large Language Modelにおける完全推論のブレークダウンを示す単純なタスク

Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models ( http://arxiv.org/abs/2406.02061v3 )

ライセンス: Link先を確認
Marianna Nezhurina, Lucia Cipolina-Kun, Mehdi Cherti, Jenia Jitsev, (参考訳) 大規模言語モデル(LLM)は、しばしば基礎モデルの例として記述される。すなわち、様々なタスクや状況に対して、ほとんどショーやゼロショットの方法で強く移行するモデルであると同時に、事前トレーニングスケールを拡大する際の関数改善を予測するスケーリング法則を示す。 これらの異なる機能やタスクが優れているという主張は、そのようなモデルに対して高いスコアを示す標準化されたベンチマークの様々なセットにまたがる測定に依存する。 ここでは,人間によって容易に解ける,簡潔で簡潔な共通感覚問題(AIW問題)を用いて,強機能(強機能)を主張する最大規模で訓練された最先端モデルの機能と推論能力の劇的な分解を実演する。 モデルは、問題の解決に影響を与えないような、微妙な問題バリエーションの強い揺らぎを示し、間違った解に強い自信を表わす。 正しいソリューションを得るための様々な標準的な介入、例えば、様々な種類の強化プロンプト、あるいは、複数のステップの再評価によって間違ったソリューションを再考するようモデルに促す、といったことは失敗します。 我々は,これらの最初の観測を科学・技術コミュニティに提供し,次世代LLMの要求能力の迅速な再評価を促進させる。 このような再評価は、現在の最先端の評価手順やベンチマークによって明らかに発見されることのないような基本的な推論欠陥を適切に検出できるような標準化されたベンチマークを作成するための共通の行動も要求される。 論文における実験の再現コードと生の実験データはhttps://github.com/LAION-AI/AIWで見ることができる。

Large Language Models (LLMs) are often described as being instances of foundation models - that is, models that transfer strongly across various tasks and conditions in few-show or zero-shot manner, while exhibiting scaling laws that predict function improvement when increasing the pre-training scale. These claims of excelling in different functions and tasks rely on measurements taken across various sets of standardized benchmarks showing high scores for such models. We demonstrate here a dramatic breakdown of function and reasoning capabilities of state-of-the-art models trained at the largest available scales which claim strong function, using a simple, short, conventional common sense problem (AIW problem) formulated in concise natural language, easily solvable by humans. The breakdown is dramatic, as models show strong fluctuations across even slight problem variations that should not affect problem solving, also expressing strong overconfidence in the wrong solutions, often backed up by plausible sounding explanation-like confabulations. Various standard interventions in an attempt to get the right solution, like various type of enhanced prompting, or urging the models to reconsider the wrong solutions again by multi step re-evaluation, fail. We take these initial observations to the scientific and technological community to stimulate urgent re-assessment of the claimed capabilities of current generation of LLMs. Such re-assessment also requires common action to create standardized benchmarks that would allow proper detection of such basic reasoning deficits that obviously manage to remain undiscovered by current state-of-the-art evaluation procedures and benchmarks. Code for reproducing experiments in the paper and raw experiments data can be found at https://github.com/LAION-AI/AIW
翻訳日:2024-07-12 22:28:14 公開日:2024-07-11
# RATT:コヒーレントかつ正しいLLM推論のための思考構造

RATT: A Thought Structure for Coherent and Correct LLM Reasoning ( http://arxiv.org/abs/2406.02746v3 )

ライセンス: Link先を確認
Jinghan Zhang, Xiting Wang, Weijieying Ren, Lu Jiang, Dongjie Wang, Kunpeng Liu, (参考訳) 大きな言語モデル(LLM)は思考構造から実質的な推論と意思決定能力を得る。 しかし、思考の樹」や「検索された思考」のような既存の手法は、事実知識の局所的検索が不十分で、戦略のグローバルな選択が不十分なため、複雑なタスクでは不足することが多い。 これらの制限は、これらの手法が事実の精度と包括的な論理最適化を効果的にバランスさせることを困難にしている。 これらの制約に対処するため,思考過程の各段階における論理的健全性と事実的正当性を両立する新しい思考構造であるRetrieval Augmented Thought Tree(RATT)を導入する。 具体的には、思考枝の各点で、RATTは、複数の潜在的な推論ステップを探索し、評価するための計画と検討を行い、検索・拡張生成(RAG)の事実チェック能力とLLMの全体的な戦略を評価する能力を統合する。 この事実知識と戦略的実現性の組み合わせにより、RATTは思考木構造を調整・統合し、探索空間内で最も有望な枝を探索する。 この思考構造は、論理的推論におけるモデルの一貫性と意思決定効率を大幅に向上させ、思考構造に基づく信頼性の高い推論と決定を生成するLLMの能力の限界を増大させる。 様々な種類のタスクに関する幅広い実験により、RATT構造が既存の手法を事実的正当性と論理的整合性で著しく上回っていることが示されている。

Large Language Models (LLMs) gain substantial reasoning and decision-making capabilities from thought structures. However, existing methods such as Tree of Thought and Retrieval Augmented Thoughts often fall short in complex tasks due to the limitations of insufficient local retrieval of factual knowledge and inadequate global selection of strategies. These limitations make it challenging for these methods to balance factual accuracy and comprehensive logical optimization effectively. To address these limitations, we introduce the Retrieval Augmented Thought Tree (RATT), a novel thought structure that considers both overall logical soundness and factual correctness at each step of the thinking process. Specifically, at every point of a thought branch, RATT performs planning and lookahead to explore and evaluate multiple potential reasoning steps, and integrate the fact-checking ability of Retrieval-Augmented Generation (RAG) with LLM's ability to assess overall strategy. Through this combination of factual knowledge and strategic feasibility, the RATT adjusts and integrates the thought tree structure to search for the most promising branches within the search space. This thought structure significantly enhances the model's coherence in logical inference and efficiency in decision-making, and thus increases the limit of the capacity of LLM to generate reliable inferences and decisions based on thought structures. A broad range of experiments on different types of tasks showcases that the RATT structure significantly outperforms existing methods in factual correctness and logical coherence.
翻訳日:2024-07-12 22:28:14 公開日:2024-07-11
# ボンド散逸による境界散逸系の緩和時間の変化

Modulating Relaxation Time in Boundary-Dissipative Systems via Bond Dissipation ( http://arxiv.org/abs/2406.04183v3 )

ライセンス: Link先を確認
Yi Peng, Chao Yang, Yucheng Wang, (参考訳) 緩和時間は量子系の緩和過程を記述する上で重要な役割を果たす。 結合散逸が境界散逸系の緩和時間に与える影響について検討し、緩和時間のスケーリングを$T_c\sim L^{z}$が$z=3$から$3$未満の値に変更できることを見出した。 さらに、そのような結合の散逸が緩和時間を著しく短縮できる理由は、特定の状態を選択的に標的にできるためであることも明らかにした。 アンダーソン局在系の場合、緩和時間のスケーリングの挙動は指数形式からシステムサイズが変化するにつれてパワーロー形式に変化する。 これは、我々が考える結合の散逸が特定の状態を選択するだけでなく、局在特性を破壊できるためである。 我々の研究は、オープンシステムでは、ある種類の消散が、別の種類の消散によって生じる影響を規制するために使用できることを明らかにしている。

Relaxation time plays a crucial role in describing the relaxation processes of quantum systems. We study the effect of a type of bond dissipation on the relaxation time of boundary dissipative systems and find that it can change the scaling of the relaxation time $T_c\sim L^{z}$ from $z=3$ to a value significantly less than $3$. We further reveal that the reason such bond dissipation can significantly reduce the relaxation time is that it can selectively target specific states. For Anderson localized systems, the scaling behavior of the relaxation time changes from an exponential form to a power-law form as the system size varies. This is because the bond dissipation we consider can not only select specific states but also disrupt the localization properties. Our work reveals that in open systems, one type of dissipation can be used to regulate the effects produced by another type of dissipation.
翻訳日:2024-07-12 22:28:14 公開日:2024-07-11
# CVPR 2024ワークショップUG2+における2段階逆気象セマンティックセマンティックセグメンテーション法

A Two-Stage Adverse Weather Semantic Segmentation Method for WeatherProof Challenge CVPR 2024 Workshop UG2+ ( http://arxiv.org/abs/2406.05513v2 )

ライセンス: Link先を確認
Jianzhao Wang, Yanyan Wei, Dehua Hu, Yilin Zhang, Shengeng Tang, Kun Li, Zhao Zhang, (参考訳) 本技術報告では,CVPR'24 UG2+における天気予報のセマンティックセグメンテーション(Semantic Segmentation in Adverse Weather)について述べる。 本稿では,この課題に対する2段階のディープラーニングフレームワークを提案する。 第1段階では、画像をビデオシーケンスに分解することで、提供されたデータセットを前処理する。 その後,高忠実度擬似基底真理を生成するために,低ランクなビデオデアライニング手法を利用する。 これらの擬似基底真理は、元の基底真理よりも優れた整合性を提供し、訓練中のモデル収束を促進する。 第2段階では、インターンイメージネットワークを用いて、生成された擬似基底真理を用いてセマンティックセグメンテーションタスクを訓練する。 特に、我々の綿密に設計された枠組みは、悪天候下で取得した劣化データに対して堅牢性を示す。 この課題では,mIoU(Mean Intersection over Union)測定値で0.43の競争スコアを達成し,上位4位を確保した。

This technical report presents our team's solution for the WeatherProof Dataset Challenge: Semantic Segmentation in Adverse Weather at CVPR'24 UG2+. We propose a two-stage deep learning framework for this task. In the first stage, we preprocess the provided dataset by concatenating images into video sequences. Subsequently, we leverage a low-rank video deraining method to generate high-fidelity pseudo ground truths. These pseudo ground truths offer superior alignment compared to the original ground truths, facilitating model convergence during training. In the second stage, we employ the InternImage network to train for the semantic segmentation task using the generated pseudo ground truths. Notably, our meticulously designed framework demonstrates robustness to degraded data captured under adverse weather conditions. In the challenge, our solution achieved a competitive score of 0.43 on the Mean Intersection over Union (mIoU) metric, securing a respectable rank of 4th.
翻訳日:2024-07-12 22:28:14 公開日:2024-07-11
# 家庭電気知識に基づくデジタル双生児との自然言語インタラクション

Natural Language Interaction with a Household Electricity Knowledge-based Digital Twin ( http://arxiv.org/abs/2406.06566v2 )

ライセンス: Link先を確認
Carolina Fortuna, Vid Hanžel, Blaž Bertalanič, (参考訳) ドメイン固有のデジタルツインは、スマートグリッドの様々なセグメントのデジタルレプリカを表すもので、各セグメントをモデル化、シミュレート、制御することができる。 同時に、知識に基づくデジタルツインとAIが組み合わさって、計画と政策立案の観点から自然言語の相互作用を通じてシステムの側面を理解する力を与えるかもしれない。 本稿では,知識に基づくエネルギーデジタル双生児を活用した家庭用電気エネルギー測定におけるRAG (Retrieval Augmented Generation) 質問応答の可能性を初めて評価し,報告した。 知識に基づくデジタル双生児を実際に表現した,最近公開された電力消費知識グラフに基づいて,ChatGPT,Gemini,Llamaの電気関連質問に対する応答能力について検討した。 さらに,既存の電気知識に基づくディジタルツインを活用したRAG技術を用いて生成されたものとの比較を行った。 以上の結果から,RAG手法はLLMが生成する誤情報の発生を減少させるだけでなく,検証可能なデータに応答することで,出力の質を著しく向上させることがわかった。 本稿では、我々の方法論を詳述し、RAGを用いた応答と非応答の比較分析を行い、エネルギーデータ分析のような専門分野におけるAIの今後の応用について考察する。

Domain specific digital twins, representing a digital replica of various segments of the smart grid, are foreseen as able to model, simulate, and control the respective segments. At the same time, knowledge-based digital twins, coupled with AI, may also empower humans to understand aspects of the system through natural language interaction in view of planning and policy making. This paper is the first to assess and report on the potential of Retrieval Augmented Generation (RAG) question answers related to household electrical energy measurement aspects leveraging a knowledge-based energy digital twin. Relying on the recently published electricity consumption knowledge graph that actually represents a knowledge-based digital twin, we study the capabilities of ChatGPT, Gemini and Llama in answering electricity related questions. Furthermore, we compare the answers with the ones generated through a RAG techniques that leverages an existing electricity knowledge-based digital twin. Our findings illustrate that the RAG approach not only reduces the incidence of incorrect information typically generated by LLMs but also significantly improves the quality of the output by grounding responses in verifiable data. This paper details our methodology, presents a comparative analysis of responses with and without RAG, and discusses the implications of our findings for future applications of AI in specialized sectors like energy data analysis.
翻訳日:2024-07-12 22:28:14 公開日:2024-07-11
# バランスの取れたコラボレーションを誘発する対話ゲーム

A Dialogue Game for Eliciting Balanced Collaboration ( http://arxiv.org/abs/2406.08202v2 )

ライセンス: Link先を確認
Isidora Jeknić, David Schlangen, Alexander Koller, (参考訳) 協調は人間の対話の不可欠な部分である。 典型的なタスク指向の対話ゲームは、参加者に非対称な役割を割り当て、協調や交渉において自然主義的な役割を引き出す能力を制限する。 プレイヤーがゴールステートを交渉しなければならない2Dオブジェクト配置ゲームである。 我々は,人間プレイヤーが様々な役割を担っていることを実証的に示し,バランスの取れた協調によってタスクのパフォーマンスが向上することを示した。 また,LLMベースのベースラインエージェントを用いて,ゲームの自動プレイが人工システムにとって興味深い課題であることを示す。

Collaboration is an integral part of human dialogue. Typical task-oriented dialogue games assign asymmetric roles to the participants, which limits their ability to elicit naturalistic role-taking in collaboration and its negotiation. We present a novel and simple online setup that favors balanced collaboration: a two-player 2D object placement game in which the players must negotiate the goal state themselves. We show empirically that human players exhibit a variety of role distributions, and that balanced collaboration improves task performance. We also present an LLM-based baseline agent which demonstrates that automatic playing of our game is an interesting challenge for artificial systems.
翻訳日:2024-07-12 22:28:14 公開日:2024-07-11
# GPT4Rec: ストリームレコメンデーションのためのグラフプロンプトチューニング

GPT4Rec: Graph Prompt Tuning for Streaming Recommendation ( http://arxiv.org/abs/2406.08229v2 )

ライセンス: Link先を確認
Peiyan Zhang, Yuchen Yan, Xi Zhang, Liying Kang, Chaozhuo Li, Feiran Huang, Senzhang Wang, Sunghun Kim, (参考訳) パーソナライズされたレコメンデーションシステムの領域では、ユーザの好みの進化と、新しいユーザやアイテムの継続的な流入に適応するという課題が最重要である。 従来のモデルは、通常静的なトレーニング-テストアプローチに依存し、これらの動的な要求に追従するのに苦労する。 ストリーミングレコメンデーション、特に連続グラフ学習は、新しいソリューションとして登場した。 しかし、この領域の既存の手法は、データプライバシの厳格な規制によってますます非現実的になっている履歴データ再生に依存しているか、過度に不安定な問題に効果的に対処できないか、あるいはモデルアイソレーションと拡張戦略に依存している。 このような問題に対処するため,GPT4Recというグラフプロンプトタニング方式でレコメンデーションをストリーミングする手法を提案する。 GPT4Recは、ユーザとイテムの相互作用グラフが進化していることを考慮し、まずグラフパターンを複数のビューに分割する。 GPT4Recは、異なるビューで特定のインタラクションパターンとリレーションシップを分離した後、軽量グラフプロンプトを使用して、ユーザ-テムグラフ内のさまざまなインタラクションパターン間でモデルを効率的にガイドする。 まず、ノードレベルのプロンプトを使用して、グラフ内の個々のノードの属性や特性の変化に適応するようにモデルを指示する。 第二に、構造レベルのプロンプトは、グラフ内の接続性や関係性のより広範なパターンに適応するモデルを導く。 最後に、ビューレベルのプロンプトは、複数の不整合ビューからの情報の集約を容易にするために革新的に設計されている。 これらのプロンプト設計により、GPT4Recはグラフの包括的な理解を合成し、ユーザとイテムの相互作用のすべての重要な側面が考慮され、効果的に統合されることを保証する。 4つの多様な実世界のデータセットに対する実験により,提案手法の有効性と有効性を示した。

In the realm of personalized recommender systems, the challenge of adapting to evolving user preferences and the continuous influx of new users and items is paramount. Conventional models, typically reliant on a static training-test approach, struggle to keep pace with these dynamic demands. Streaming recommendation, particularly through continual graph learning, has emerged as a novel solution. However, existing methods in this area either rely on historical data replay, which is increasingly impractical due to stringent data privacy regulations; or are inability to effectively address the over-stability issue; or depend on model-isolation and expansion strategies. To tackle these difficulties, we present GPT4Rec, a Graph Prompt Tuning method for streaming Recommendation. Given the evolving user-item interaction graph, GPT4Rec first disentangles the graph patterns into multiple views. After isolating specific interaction patterns and relationships in different views, GPT4Rec utilizes lightweight graph prompts to efficiently guide the model across varying interaction patterns within the user-item graph. Firstly, node-level prompts are employed to instruct the model to adapt to changes in the attributes or properties of individual nodes within the graph. Secondly, structure-level prompts guide the model in adapting to broader patterns of connectivity and relationships within the graph. Finally, view-level prompts are innovatively designed to facilitate the aggregation of information from multiple disentangled views. These prompt designs allow GPT4Rec to synthesize a comprehensive understanding of the graph, ensuring that all vital aspects of the user-item interactions are considered and effectively integrated. Experiments on four diverse real-world datasets demonstrate the effectiveness and efficiency of our proposal.
翻訳日:2024-07-12 22:28:14 公開日:2024-07-11
# 分解SMRを用いたスケーラブルブロックチェーンの最適シャーディング

Optimal Sharding for Scalable Blockchains with Deconstructed SMR ( http://arxiv.org/abs/2406.08252v2 )

ライセンス: Link先を確認
Jianting Zhang, Zhongtang Luo, Raghavendra Ramesh, Aniket Kate, (参考訳) Shardingはブロックチェーンのスケーラビリティを高めるために提案されている。 しかしながら、すべてのシャードがそのセキュリティを確保するのに十分な大きさでなければならない大きさのセキュリティジレンマは、個々のシャードの有効性とシャード自体の程度を制約する。 したがって、既存のシャーディングソリューションの多くは、敵を弱めるか、ネットワークリンクに強い仮定を与えるかに依存する。 本稿では、個別のシャードがより高い(ビザンチン)障害を許容できるならば、より小さなシャードをより多く安全に作成できるという観察に基づいてジレンマを解決するために設計された、最適にスケーラブルなブロックチェーンシャーディングプロトコルであるAreteを提案する。 したがって、Areteの鍵となる考え方は、ブロックチェーンのState Machine Replication(SMR)プロセス自体を分割することで、シャードのセキュリティのレジリエンス/閾値を改善することである。 現代のブロックチェーンと同じように、Areteはまず、トランザクションの拡散、順序付け、実行という3つのステップでSMRを分離する。 しかし、Areteのように他のブロックチェーンとは異なり、単一の順序付けシャードが順序付けタスクを実行し、複数の処理シャードがブロックの拡散と実行を行う。 処理シャードがコンセンサスを実行しないため、それぞれのノードは最大半分の妥協ノードを許容することができる。 さらに、順序付けシャードのSMRプロセスはブロックダイジェストのみで動作するため、軽量である。 第2に、アレテはビザンチンの障害に対する安全と生活を別々に検討し、安全基準をさらに改善するとともに、一時的な生活違反を規制された方法で許容している。 より最適なサイズのシャードの作成とは別に、このような分解されたSMRスキームは、トランザクション処理を完全に並列化するための新しい認証順序実行アーキテクチャを考案する上で、シャード化されたブロックチェーンシステムのパフォーマンス向上にも役立ちます。 私たちはAreteを実装し、地理的に分散したAWS環境で評価し、Areteが最先端のシャーディングプロトコルより優れていることを示す。

Sharding is proposed to enhance blockchain scalability. However, a size-security dilemma where every shard must be large enough to ensure its security constrains the efficacy of individual shards and the degree of sharding itself. Most existing sharding solutions therefore rely on either weakening the adversary or making stronger assumptions on network links. This paper presents Arete, an optimally scalable blockchain sharding protocol designed to resolve the dilemma based on an observation that if individual shards can tolerate a higher fraction of (Byzantine) faults, we can securely create smaller shards in a larger quantity. The key idea of Arete, therefore, is to improve the security resilience/threshold of shards by dividing the blockchain's State Machine Replication (SMR) process itself. Similar to modern blockchains, Arete first decouples SMR in three steps: transaction dissemination, ordering, and execution. However, unlike other blockchains, for Arete, a single ordering shard performs the ordering task while multiple processing shards perform the dissemination and execution of blocks. As processing shards do not run consensus, each of those can tolerate up to half compromised nodes. Moreover, the SMR process in the ordering shard is lightweight as it only operates on the block digests. Second, Arete considers safety and liveness against Byzantine failures separately to improve the safety threshold further while tolerating temporary liveness violations in a controlled manner. Apart from the creation of more optimal-size shards, such a deconstructed SMR scheme also empowers us to devise a novel certify-order-execute architecture to fully parallelize transaction handling, thereby improving the performance of sharded blockchain systems. We implement Arete and evaluate it on a geo-distributed AWS environment, showing that Arete outperforms the state-of-the-art sharding protocol.
翻訳日:2024-07-12 22:28:14 公開日:2024-07-11
# VLind-Bench: 大規模視覚言語モデルにおける言語事前測定

VLind-Bench: Measuring Language Priors in Large Vision-Language Models ( http://arxiv.org/abs/2406.08702v3 )

ライセンス: Link先を確認
Kang-il Lee, Minbeom Kim, Seunghyun Yoon, Minsung Kim, Dongryeol Lee, Hyukhun Koh, Kyomin Jung, (参考訳) LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れた性能を示す。 しかし、それらは、画像情報を無視しながら、テキストパターンのみに基づいて応答が生成される、言語事前(Language prior)と呼ばれる問題に悩まされている。 事前言語の問題に対処することは、トレーニングディストリビューション外の画像を扱う際に、望ましくない偏見や幻覚を引き起こす可能性があるため、非常に重要である。 その重要性にもかかわらず、LVLMにおける言語先行を正確に測定する現在の手法は、あまり研究されていない。 既存のベンチマークは、反ファクトやアウト・オブ・ディストリビューションのイメージに基づいており、部分的に言語先行を計測することができるが、言語先行を他の要因から切り離すことはできない。 この目的のために我々は,LVLM の言語先行,すなわち盲点を測定するために設計された最初のベンチマークである VLind-Bench という新しいベンチマークを提案する。 言語先行性を評価するために、対物画像に関するテストを含むだけでなく、コモンセンス知識、視覚知覚、コモンセンスバイアスなど、より基本的な機能を評価する一連のテストも含んでいる。 ベンチマーク中の各インスタンスについて、これらの基本テストが言語事前評価の前にパスされることを保証し、その結果、他の要素が評価に与える影響を最小限に抑える。 近年のLVLMの評価と分析により,ほぼすべてのモデルが言語先行に大きく依存していることが判明した。

Large Vision-Language Models (LVLMs) have demonstrated outstanding performance across various multimodal tasks. However, they suffer from a problem known as language prior, where responses are generated based solely on textual patterns while disregarding image information. Addressing the issue of language prior is crucial, as it can lead to undesirable biases or hallucinations when dealing with images that are out of training distribution. Despite its importance, current methods for accurately measuring language priors in LVLMs are poorly studied. Although existing benchmarks based on counterfactual or out-of-distribution images can partially be used to measure language priors, they fail to disentangle language priors from other confounding factors. To this end, we propose a new benchmark called VLind-Bench, which is the first benchmark specifically designed to measure the language priors, or blindness, of LVLMs. It not only includes tests on counterfactual images to assess language priors but also involves a series of tests to evaluate more basic capabilities such as commonsense knowledge, visual perception, and commonsense biases. For each instance in our benchmark, we ensure that all these basic tests are passed before evaluating the language priors, thereby minimizing the influence of other factors on the assessment. The evaluation and analysis of recent LVLMs in our benchmark reveal that almost all models exhibit a significant reliance on language priors, presenting a strong challenge in the field.
翻訳日:2024-07-12 22:28:14 公開日:2024-07-11
# SA-DQAS: 自己アテンションを増強した微分可能な量子アーキテクチャ検索

SA-DQAS: Self-attention Enhanced Differentiable Quantum Architecture Search ( http://arxiv.org/abs/2406.08882v2 )

ライセンス: Link先を確認
Yize Sun, Jiarui Liu, Zixin Wu, Zifeng Ding, Yunpu Ma, Thomas Seidl, Volker Tresp, (参考訳) 本稿では、量子機械学習(QML)の課題に対して回路設計を最適化することを目的とした自己アテンション機構により、勾配に基づく微分量子アーキテクチャ探索(DQAS)を強化する新しいフレームワークであるSA-DQASを紹介する。 文中の単語の列に類似して、量子回路は量子ゲートを含むプレースホルダーの列と見なすことができる。 DQASとは異なり、各プレースホルダーは独立しており、SA-DQASの自己保持機構は、回路内のプレースホルダーに配置された各操作候補間の関係や依存情報をキャプチャするのに役立つ。 本研究では,ジョブショップスケジューリング問題 (JSSP) , 最大カット問題, 量子忠実度に関する実験を行った。 自己注意を組み込むことで、結果の量子回路の安定性と性能が向上し、高いノイズ耐性と忠実さで構造設計が洗練される。 我々の研究は、DQASとの自己意識の初めての統合に成功したことを実証している。

We introduce SA-DQAS in this paper, a novel framework that enhances the gradient-based Differentiable Quantum Architecture Search (DQAS) with a self-attention mechanism, aimed at optimizing circuit design for Quantum Machine Learning (QML) challenges. Analogous to a sequence of words in a sentence, a quantum circuit can be viewed as a sequence of placeholders containing quantum gates. Unlike DQAS, each placeholder is independent, while the self-attention mechanism in SA-DQAS helps to capture relation and dependency information among each operation candidate placed on placeholders in a circuit. To evaluate and verify, we conduct experiments on job-shop scheduling problems (JSSP), Max-cut problems, and quantum fidelity. Incorporating self-attention improves the stability and performance of the resulting quantum circuits and refines their structural design with higher noise resilience and fidelity. Our research demonstrates the first successful integration of self-attention with DQAS.
翻訳日:2024-07-12 22:28:14 公開日:2024-07-11
# SparseRadNet:サブサンプルレーダデータに基づくスパース知覚ニューラルネットワーク

SparseRadNet: Sparse Perception Neural Network on Subsampled Radar Data ( http://arxiv.org/abs/2406.10600v3 )

ライセンス: Link先を確認
Jialong Wu, Mirko Meuter, Markus Schoeler, Matthias Rottmann, (参考訳) レーダーに基づく認識は自律走行において注目を集めているが、レーダーの空間性は課題を生じさせている。 レーダー生データは、しばしば過剰なノイズを含むが、レーダー点雲は限られた情報しか保持しない。 本研究では,レーダ信号のグローバルおよびローカルな依存関係を発見するために,空間パターンを利用した適応型サブサンプリング手法と,適応型ネットワークアーキテクチャを導入することで,レーダデータの疎結合性を均質に扱う。 我々のサブサンプリングモジュールは、下流の知覚タスクに最も寄与するレンジドップラー(RD)スペクトルから画素のサブセットを選択する。 スパースサブサンプリングデータの特徴抽出を改善するために,レーダデータにグラフニューラルネットワークを適用する新しい手法を提案する。 両方のブランチの機能を組み合わせるために、注意深い融合モジュールが適用される。 RADIalデータセットを用いた実験により,SparseRadNetはオブジェクト検出における最先端(SOTA)性能を超え,空間分割におけるSOTA精度に近づき,スパースサブサンプル入力データを用いた。

Radar-based perception has gained increasing attention in autonomous driving, yet the inherent sparsity of radars poses challenges. Radar raw data often contains excessive noise, whereas radar point clouds retain only limited information. In this work, we holistically treat the sparse nature of radar data by introducing an adaptive subsampling method together with a tailored network architecture that exploits the sparsity patterns to discover global and local dependencies in the radar signal. Our subsampling module selects a subset of pixels from range-doppler (RD) spectra that contribute most to the downstream perception tasks. To improve the feature extraction on sparse subsampled data, we propose a new way of applying graph neural networks on radar data and design a novel two-branch backbone to capture both global and local neighbor information. An attentive fusion module is applied to combine features from both branches. Experiments on the RADIal dataset show that our SparseRadNet exceeds state-of-the-art (SOTA) performance in object detection and achieves close to SOTA accuracy in freespace segmentation, meanwhile using sparse subsampled input data.
翻訳日:2024-07-12 22:18:16 公開日:2024-07-11
# QC-Forest: ランダムフォレストの再トレーニングを高速化する古典的量子アルゴリズム

QC-Forest: a Classical-Quantum Algorithm to Provably Speedup Retraining of Random Forest ( http://arxiv.org/abs/2406.12008v3 )

ライセンス: Link先を確認
Romina Yalovetzky, Niraj Kumar, Changhao Li, Marco Pistoia, (参考訳) ランダムフォレスト(Random Forest, RF)は、教師あり学習法として人気があり、使いやすさと柔軟性で評価されている。 オンラインRFモデルは、モデルの精度を維持するために、新しいトレーニングデータを考慮する必要がある。 これは、自動運転システムやクレジットカード支払いなどのデータストリームにおいて、データが定期的に、定期的に、時系列に生成されるアプリケーションにおいて特に重要である。 この設定では、時間とともにデータ分布のドリフトが完全に捕捉されるので、古いデータと新しいデータが蓄積された周期的モデルの再トレーニングを行うのが有益である。 しかし、これは、蓄積されたサンプル数と線形にスケールするため、RFの最先端の古典的アルゴリズムでは実用的ではない。 QC-Forestは,マルチクラス分類と回帰のためのストリーミング設定において,RFモデルを時間効率よく再学習するように設計された古典量子アルゴリズムである。 QC-Forestは、Kumarらによって提案された単一木構築と再訓練のための量子アルゴリズムであるDes-qを活用し、元の提案はバイナリクラスに限定されていたため、マルチクラス分類に拡張し、同じ多対数依存を維持しながら、基礎となる量子サブルーチンを有限エラーに置き換える正確な古典的な方法を導入した。 最後に、QC-Forestは、最大80,000のサンプルを持つ広く使用されているベンチマークデータセットの最先端RF手法と比較して、競合精度を向上し、モデル再トレーニングを大幅に高速化することを示した。

Random Forest (RF) is a popular tree-ensemble method for supervised learning, prized for its ease of use and flexibility. Online RF models require to account for new training data to maintain model accuracy. This is particularly important in applications where data is periodically and sequentially generated over time in data streams, such as auto-driving systems, and credit card payments. In this setting, performing periodic model retraining with the old and new data accumulated is beneficial as it fully captures possible drifts in the data distribution over time. However, this is unpractical with state-of-the-art classical algorithms for RF as they scale linearly with the accumulated number of samples. We propose QC-Forest, a classical-quantum algorithm designed to time-efficiently retrain RF models in the streaming setting for multi-class classification and regression, achieving a runtime poly-logarithmic in the total number of accumulated samples. QC-Forest leverages Des-q, a quantum algorithm for single tree construction and retraining proposed by Kumar et al. by expanding to multi-class classification, as the original proposal was limited to binary classes, and introducing an exact classical method to replace an underlying quantum subroutine incurring a finite error, while maintaining the same poly-logarithmic dependence. Finally, we showcase that QC-Forest achieves competitive accuracy in comparison to state-of-the-art RF methods on widely used benchmark datasets with up to 80,000 samples, while significantly speeding up the model retrain.
翻訳日:2024-07-12 22:18:16 公開日:2024-07-11
# MCSD: 拡散融合を用いた効率的な言語モデル

MCSD: An Efficient Language Model with Diverse Fusion ( http://arxiv.org/abs/2406.12230v2 )

ライセンス: Link先を確認
Hua Yang, Duohai Li, Shiman Li, (参考訳) トランスフォーマーは自然言語処理(NLP)において、長期依存を捕捉する能力から優れているが、シーケンス長の増加とともに指数的なリソース消費に悩まされている。 これらの課題に対処するために,線形スケーリングと高速推論速度を備えた効率的な言語モデルであるMCSDモデルを提案する。 MCSDモデルは多チャンネルスロープと崩壊ブロック(MCSD)を通して様々な特徴融合を活用し、特徴を頑健に表現する。 このブロックは傾斜部と崩壊部から構成され、様々な時間的受容領域にまたがる特徴を抽出し、局所情報とグローバル情報の両方を捕捉する。 さらに、MCSDブロックは様々な特徴を要素的に融合させ、繊細な特徴抽出能力をさらに強化する。 推論のために、推論プロセスを反復表現に定式化し、空間複雑性を$O(1)$に、時間複雑性を$O(N)$に分割する。 実験の結果,MCSD は Transformers と比較して高いスループットと低GPU メモリ消費を実現し,ベンチマークテストにおける大規模言語学習モデルと同等の性能を維持した。 これらの属性は、MCSDをエッジデプロイメントとインテリジェンスを具現化する有望な基盤として位置づけている。

Transformers excel in Natural Language Processing (NLP) due to their prowess in capturing long-term dependencies but suffer from exponential resource consumption with increasing sequence lengths. To address these challenges, we propose MCSD model, an efficient language model with linear scaling and fast inference speed. MCSD model leverages diverse feature fusion, primarily through the multi-channel slope and decay (MCSD) block, to robustly represent features. This block comprises slope and decay sections that extract features across diverse temporal receptive fields, facilitating capture of both local and global information. In addition, MCSD block conducts element-wise fusion of diverse features to further enhance the delicate feature extraction capability. For inference, we formulate the inference process into a recurrent representation, slashing space complexity to $O(1)$ and time complexity to $O(N)$ respectively. Our experiments show that MCSD attains higher throughput and lower GPU memory consumption compared to Transformers, while maintaining comparable performance to larger-scale language learning models on benchmark tests. These attributes position MCSD as a promising base for edge deployment and embodied intelligence.
翻訳日:2024-07-12 22:18:16 公開日:2024-07-11
# 均質ツールの適応的選択--RAGシナリオの検証

Adaptive Selection for Homogeneous Tools: An Instantiation in the RAG Scenario ( http://arxiv.org/abs/2406.12429v2 )

ライセンス: Link先を確認
Feiteng Mu, Yong Jiang, Liwen Zhang, Chu Liu, Wenjie Li, Pengjun Xie, Fei Huang, (参考訳) ツール学習に関する現在の研究は、主に様々な選択肢から最も効果的なツールを選択することに焦点を当てている。 本稿では,タスクの達成に必要な性能と関連するコストの両方を予測し,同種ツールの選択に対処する。 次に、最適なツールに費用対効果でクエリを割り当てます。 実験結果から,本手法は強力なベースライン手法に比べて低コストで高い性能を実現することが示された。

Current research on tool learning primarily focuses on selecting the most effective tool from a wide array of options, often overlooking cost-effectiveness, a crucial factor in human problem-solving. In this paper, we address the selection of homogeneous tools by predicting both their performance and the associated cost required to accomplish a given task. We then assign queries to the optimal tools in a cost-effective manner. Our experimental results demonstrate that our method achieves higher performance at a lower cost compared to strong baseline approaches.
翻訳日:2024-07-12 22:18:16 公開日:2024-07-11
# 大規模言語モデルの多言語指導チューニングに良いデータか、それとも単に多言語評価に悪いデータか?

Is It Good Data for Multilingual Instruction Tuning or Just Bad Multilingual Evaluation for Large Language Models? ( http://arxiv.org/abs/2406.12822v2 )

ライセンス: Link先を確認
Pinzhen Chen, Simon Yu, Zhicheng Guo, Barry Haddow, (参考訳) 大規模言語モデル、特に多言語モデルは設計され、主張され、様々な言語の母語話者に適応することが期待されている。 これらのモデルを微調整し評価する現在の実践は、翻訳に大きく依存しているため、翻訳アーチファクトや欠陥を導入できるため、この目的と完全に一致しないのではないか、という仮説を立てる。 命令データの性質がモデル出力に影響を及ぼすかどうかは不明であるが、逆に、翻訳されたテストセットがそのようなニュアンスを捕捉できるかどうかは疑問である。 両段階での翻訳データの使用は、しばしば混在しているため、このような不完全性は見過ごされた可能性がある。 本研究は,制御されたネイティブデータや翻訳データを用いて,授業のチューニングと評価段階におけるこれらの課題について検討する。 8つのベースモデルと8つの異なるベンチマーク実験により、ネイティブまたはジェネレーションベンチマークは、特にモデルの性能が高い場合、特にネイティブと変換された命令データの間に顕著な違いを示す。 ラウンドトリップとシングルパスの翻訳の比較は、言語固有のリソースからの知識の重要性を反映している。 最後に、このギャップを構造的だが生成的タスクで埋めるには、正規化が有益であることを示す。

Large language models, particularly multilingual ones, are designed, claimed, and expected to cater to native speakers of varied languages. We hypothesise that the current practices of fine-tuning and evaluating these models may not perfectly align with this objective owing to a heavy reliance on translation, which can introduce translation artefacts and defects. It remains unknown whether the nature of the instruction data has an impact on the model output; conversely, it is questionable whether translated test sets can capture such nuances. Due to the often coupled practices of using translated data in both stages, such imperfections could have been overlooked. This work investigates these issues using controlled native or translated data during instruction tuning and evaluation stages. Experiments on eight base models and eight different benchmarks show that native or generation benchmarks reveal a notable difference between native and translated instruction data especially when model performance is high, whereas other types of test sets cannot. The comparison between round-trip and single-pass translations reflects the importance of knowledge from language-native resources. Finally, we demonstrate that regularization is beneficial to bridging this gap on structured but not generative tasks.
翻訳日:2024-07-12 22:18:16 公開日:2024-07-11
# データ重要度外挿による対人訓練における大規模データ・プルーニング

Large-Scale Dataset Pruning in Adversarial Training through Data Importance Extrapolation ( http://arxiv.org/abs/2406.13283v2 )

ライセンス: Link先を確認
Björn Nieth, Thomas Altstidl, Leo Schwinn, Björn Eskofier, (参考訳) 彼らの小さな、受け入れがたい攻撃に対する脆弱性は、現実世界のシステムへのディープラーニングモデルの採用を制限する。 敵の訓練は、訓練時間の大幅な増加を犠牲にして、これらの攻撃に対して最も有望な戦略の1つであることが証明されている。 大規模な合成データの統合が進行中であるため、さらなる増加が期待されている。 したがって、正確性と堅牢性を維持しながら、トレーニングサンプルの数を減らすデータ中心のアプローチの必要性が生じる。 データプルーニングとアクティブラーニングは深層学習において顕著な研究テーマであるが、現在では敵の訓練文学においてほとんど解明されていない。 このギャップに対処し、小さなデータセットからより大きなデータセットへのデータ重要度スコアの補間に基づく新しいデータプルーニング戦略を提案する。 実験的な評価では,外挿型プルーニングは頑健性を維持しつつ,データセットサイズを効率的に削減できることを示した。

Their vulnerability to small, imperceptible attacks limits the adoption of deep learning models to real-world systems. Adversarial training has proven to be one of the most promising strategies against these attacks, at the expense of a substantial increase in training time. With the ongoing trend of integrating large-scale synthetic data this is only expected to increase even further. Thus, the need for data-centric approaches that reduce the number of training samples while maintaining accuracy and robustness arises. While data pruning and active learning are prominent research topics in deep learning, they are as of now largely unexplored in the adversarial training literature. We address this gap and propose a new data pruning strategy based on extrapolating data importance scores from a small set of data to a larger set. In an empirical evaluation, we demonstrate that extrapolation-based pruning can efficiently reduce dataset size while maintaining robustness.
翻訳日:2024-07-12 22:18:16 公開日:2024-07-11
# EvoAgent:進化的アルゴリズムによる自動マルチエージェント生成を目指して

EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms ( http://arxiv.org/abs/2406.14228v2 )

ライセンス: Link先を確認
Siyu Yuan, Kaitao Song, Jiangjie Chen, Xu Tan, Dongsheng Li, Deqing Yang, (参考訳) 強力な大規模言語モデル(LLM)の台頭は、複雑なタスク、特にマルチエージェントシステムを解決するためのLLMベースの自律エージェントの構築において、新たなトレンドを引き起こしている。 目覚ましい進歩にもかかわらず、既存の作業が人間設計のフレームワークに大きく依存していることに気づき、エージェントシステムの機能的スコープとスケーラビリティを著しく制限している。 タスク解決能力を改善するために、特殊エージェントをマルチエージェントシステムに自動的に拡張する方法は、依然として大きな課題である。 本稿では、進化的アルゴリズムを用いて、エキスパートエージェントをマルチエージェントシステムに自動的に拡張する一般的な方法であるEvoAgentを紹介し、タスク解決におけるLCMベースのエージェントの有効性を改善する。 具体的には、既存のエージェントフレームワークを初期個人とみなし、さまざまなエージェント設定を持つ複数のエージェントを生成するために一連の進化演算子(例えば、突然変異、交叉、選択など)を適用する。 EvoAgent は LLM ベースのエージェントフレームワークに一般化することができ、既存のエージェントフレームワークを人間の余分な設計なしにマルチエージェントシステムに自動的に拡張することができる。 様々なタスクにわたる実験結果から,EvoAgentは複数の専門家エージェントを自動生成し,LLMエージェントのタスク解決能力を著しく向上できることがわかった。

The rise of powerful large language models (LLMs) has spurred a new trend in building LLM-based autonomous agents for solving complex tasks, especially multi-agent systems. Despite the remarkable progress, we notice that existing works are heavily dependent on human-designed frameworks, which greatly limits the functional scope and scalability of agent systems. How to automatically extend the specialized agent to multi-agent systems to improve task-solving capability still remains a significant challenge. In this paper, we introduce EvoAgent, a generic method to automatically extend expert agents to multi-agent systems via the evolutionary algorithm, thereby improving the effectiveness of LLM-based agents in solving tasks. Specifically, we consider the existing agent frameworks as the initial individual and then apply a series of evolutionary operators (e.g., mutation, crossover, selection, etc.) to generate multiple agents with diverse agent settings. EvoAgent can be generalized to any LLM-based agent framework, and can automatically extend the existing agent framework to multi-agent systems without any extra human designs. Experimental results across various tasks have shown that EvoAgent can automatically generate multiple expert agents and significantly enhance the task-solving capabilities of LLM-based agents.
翻訳日:2024-07-12 22:18:16 公開日:2024-07-11
# ステップバックプロファイリング:パーソナライズされた科学書記のためのユーザ履歴の蒸留

Step-Back Profiling: Distilling User History for Personalized Scientific Writing ( http://arxiv.org/abs/2406.14275v2 )

ライセンス: Link先を確認
Xiangru Tang, Xingyao Zhang, Yanjun Shao, Jie Wu, Yilun Zhao, Arman Cohan, Ming Gong, Dongmei Zhang, Mark Gerstein, (参考訳) 大きな言語モデル(LLM)は、さまざまな自然言語処理タスクに優れていますが、特に科学的な記述のような現実のシナリオにおいて、個人のためにパーソナライズされたコンテンツを生成するのに苦労しています。 この課題に対処するために,ユーザ履歴を重要な特徴やユーザの好みを含む簡潔なプロファイルに抽出することで,LSMをパーソナライズするSTEP-BACK PROFIlingを導入する。 実験を行うために、多ユーザパーソナライゼーションを研究するためのパーソナライズド・サイエントリーティング(PSW)データセットを構築した。 PSWは、様々な学術的背景を持つ専門的な著者グループに与えられた科学論文を書くためにモデルを必要とする。 その結果,共同作成のためのSTEP-BACK PROFIlingによるユーザ特性のキャプチャの有効性を実証した。 さらに,7つのパーソナライズLCMタスクを含む一般パーソナライズベンチマーク(LaMP)において,ベースラインを最大3.6ポイント向上させる。 我々のアブレーション研究は、我々の方法における様々なコンポーネントの貢献を検証し、タスク定義に対する洞察を提供する。 データセットとコードは、 \url{https://github.com/gersteinlab/step-back-profiling}で利用可能です。

Large language models (LLM) excel at a variety of natural language processing tasks, yet they struggle to generate personalized content for individuals, particularly in real-world scenarios like scientific writing. Addressing this challenge, we introduce STEP-BACK PROFILING to personalize LLMs by distilling user history into concise profiles, including essential traits and preferences of users. To conduct the experiments, we construct a Personalized Scientific Writing (PSW) dataset to study multi-user personalization. PSW requires the models to write scientific papers given specialized author groups with diverse academic backgrounds. As for the results, we demonstrate the effectiveness of capturing user characteristics via STEP-BACK PROFILING for collaborative writing. Moreover, our approach outperforms the baselines by up to 3.6 points on the general personalization benchmark (LaMP), including 7 personalization LLM tasks. Our ablation studies validate the contributions of different components in our method and provide insights into our task definition. Our dataset and code are available at \url{https://github.com/gersteinlab/step-back-profiling}.
翻訳日:2024-07-12 22:18:16 公開日:2024-07-11
# 高分解能開語彙オブジェクト6Dポーズ推定

High-resolution open-vocabulary object 6D pose estimation ( http://arxiv.org/abs/2406.16384v2 )

ライセンス: Link先を確認
Jaime Corsetti, Davide Boscaini, Francesco Giuliari, Changjae Oh, Andrea Cavallaro, Fabio Poiesi, (参考訳) 6次元ポーズ推定タスクにおける未確認オブジェクトの一般化は非常に困難である。 Vision-Language Models (VLM) は、自然言語による未確認オブジェクトの6次元ポーズ推定をサポートするが、これらのソリューションはモデルベースの手法に比べて性能が劣る。 本稿では,テキストプロンプトのみによって記述された,未確認物体の2つのシーン間の相対的なポーズ推定に対処する,オープンボキャブラリVLMベースのアーキテクチャであるHoryonを紹介する。 テキストプロンプトを用いて、シーン内の見えない物体を識別し、高解像度のマルチスケール特徴を得る。 これらの特徴は、登録のためのクロスシーンマッチを抽出するために使用される。 我々は,REAL275,Toyota-Light,Linemod,YCB-Videoの4つのデータセットにまたがるさまざまな未確認オブジェクトを用いたベンチマークで,我々のモデルを評価した。 提案手法は,全データセットの最先端性能を達成し,前回のベストパフォーマンスアプローチであるAverage Recallの12.6倍に向上する。

The generalisation to unseen objects in the 6D pose estimation task is very challenging. While Vision-Language Models (VLMs) enable using natural language descriptions to support 6D pose estimation of unseen objects, these solutions underperform compared to model-based methods. In this work we present Horyon, an open-vocabulary VLM-based architecture that addresses relative pose estimation between two scenes of an unseen object, described by a textual prompt only. We use the textual prompt to identify the unseen object in the scenes and then obtain high-resolution multi-scale features. These features are used to extract cross-scene matches for registration. We evaluate our model on a benchmark with a large variety of unseen objects across four datasets, namely REAL275, Toyota-Light, Linemod, and YCB-Video. Our method achieves state-of-the-art performance on all datasets, outperforming by 12.6 in Average Recall the previous best-performing approach.
翻訳日:2024-07-12 22:18:16 公開日:2024-07-11
# LVLMにおける関係幻覚の評価と解析

Evaluating and Analyzing Relationship Hallucinations in LVLMs ( http://arxiv.org/abs/2406.16449v3 )

ライセンス: Link先を確認
Mingrui Wu, Jiayi Ji, Oucheng Huang, Jiale Li, Yuhang Wu, Xiaoshuai Sun, Rongrong Ji, (参考訳) 幻覚の問題は、既存のLVLM(Large Vision-Language Models)の関心事である。 これまでは主に、物体検出装置を導入することで容易に緩和できる物体幻覚の研究に重点を置いてきた。 しかし、これらの努力は、視覚的理解に欠かせない対象間の関係における幻覚を無視している。 本稿では,視覚関係の幻覚を評価するための新しいベンチマークであるR-Benchを紹介する。 R-Benchは、関係の存在に焦点を当てたイメージレベルの質問と、局所的な視覚的理解を評価するインスタンスレベルの質問を特徴としている。 我々は,関係関連性,主観関連性,関係対象性という,幻覚につながる3つの関係共起関係を同定する。 ビジュアルインストラクションチューニングデータセットのロングテール分布は、LVLMの視覚的関係に対する理解に大きな影響を及ぼす。 さらに,現在のLVLMは視覚的内容を無視し,大言語モデルの常識知識を過度に依存する傾向にあることを明らかにした。 また、文脈情報に基づく空間関係の推論にも苦労している。

The issue of hallucinations is a prevalent concern in existing Large Vision-Language Models (LVLMs). Previous efforts have primarily focused on investigating object hallucinations, which can be easily alleviated by introducing object detectors. However, these efforts neglect hallucinations in inter-object relationships, which is essential for visual comprehension. In this work, we introduce R-Bench, a novel benchmark for evaluating Vision Relationship Hallucination. R-Bench features image-level questions that focus on the existence of relationships and instance-level questions that assess local visual comprehension. We identify three types of relationship co-occurrences that lead to hallucinations: relationship-relationship, subject-relationship, and relationship-object. The visual instruction tuning dataset's long-tail distribution significantly impacts LVLMs' understanding of visual relationships. Furthermore, our analysis reveals that current LVLMs tend to disregard visual content and overly rely on the common sense knowledge of Large Language Models. They also struggle with reasoning about spatial relationships based on contextual information.
翻訳日:2024-07-12 22:18:16 公開日:2024-07-11
# 言語モデルにおける著作権削除手法の評価

Evaluating Copyright Takedown Methods for Language Models ( http://arxiv.org/abs/2406.18664v3 )

ライセンス: Link先を確認
Boyi Wei, Weijia Shi, Yangsibo Huang, Noah A. Smith, Chiyuan Zhang, Luke Zettlemoyer, Kai Li, Peter Henderson, (参考訳) 言語モデル(LM)は、潜在的に著作権のある資料を含む様々なデータに対する広範な訓練からその能力を引き出す。 これらのモデルはトレーニングデータと同様のコンテンツを記憶し、生成することができ、潜在的な懸念を呈する。 そのため、モデル作成者は、保護されたコンテンツの生成を防ぐための緩和手法を開発する動機がある。 本稿では,本手法を,DMCAの取扱いと概念的類似性(ただし法的な相違)に言及し,本手法をLMの著作権取下げの実施可能性と副作用の最初の評価として紹介する。 本稿では,著作権削除手法の有効性を評価するための評価フレームワークであるCoTaEvalを提案する。 システムプロンプトの追加、デコード時間フィルタリングの介入、未学習アプローチなど、いくつかの戦略を検討する。 以上の結果から,テスト手法が全指標に及ばないことが示唆され,この独特な課題について研究する余地が示され,生活政策提案の未解決課題の可能性も示唆された。

Language models (LMs) derive their capabilities from extensive training on diverse data, including potentially copyrighted material. These models can memorize and generate content similar to their training data, posing potential concerns. Therefore, model creators are motivated to develop mitigation methods that prevent generating protected content. We term this procedure as copyright takedowns for LMs, noting the conceptual similarity to (but legal distinction from) the DMCA takedown This paper introduces the first evaluation of the feasibility and side effects of copyright takedowns for LMs. We propose CoTaEval, an evaluation framework to assess the effectiveness of copyright takedown methods, the impact on the model's ability to retain uncopyrightable factual knowledge from the training data whose recitation is embargoed, and how well the model maintains its general utility and efficiency. We examine several strategies, including adding system prompts, decoding-time filtering interventions, and unlearning approaches. Our findings indicate that no tested method excels across all metrics, showing significant room for research in this unique problem setting and indicating potential unresolved challenges for live policy proposals.
翻訳日:2024-07-12 22:18:16 公開日:2024-07-11
# PPTFormer:UAVセグメンテーションのための擬似多点変換器

PPTFormer: Pseudo Multi-Perspective Transformer for UAV Segmentation ( http://arxiv.org/abs/2406.19632v2 )

ライセンス: Link先を確認
Deyi Ji, Wenwei Jin, Hongtao Lu, Feng Zhao, (参考訳) 様々な分野における無人航空機(UAV)の上昇は、UAVキャプチャ画像のダイナミックな視点による課題に直面する、効果的なUAV画像セグメンテーションを必要とする。 従来のセグメンテーションアルゴリズムは、UAVパースペクティブの複雑さを正確に模倣することができず、マルチパースペクティブなラベル付きデータセットを取得するコストは禁じられている。 これらの問題に対処するため,UAV画像セグメンテーションに革命をもたらす新しい超多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元 提案手法は,マルチパースペクティブ学習の強化のための疑似視点を作成することによって,実際のマルチパースペクティブデータの必要性を回避する。 PPTFormerネットワークは、パースペクティブ表現、新しいパースペクティブプロトタイプ、およびPseudo Multi-Perspective Attention (PMP Attention)とFusionを通じて優れたセグメンテーション結果を得るための特別なエンコーダとデコーダを備えている。 実験により,PPTFormerは5つのUAVセグメンテーションデータセットの最先端性能を実現し,UAV飛行視点を効果的にシミュレートし,セグメンテーション精度を大幅に向上することを確認した。 この研究は、UAVシーン理解の先駆的な飛躍を示し、セマンティックセグメンテーションにおける将来の発展のための新しいベンチマークを設定する。

The ascension of Unmanned Aerial Vehicles (UAVs) in various fields necessitates effective UAV image segmentation, which faces challenges due to the dynamic perspectives of UAV-captured images. Traditional segmentation algorithms falter as they cannot accurately mimic the complexity of UAV perspectives, and the cost of obtaining multi-perspective labeled datasets is prohibitive. To address these issues, we introduce the PPTFormer, a novel \textbf{P}seudo Multi-\textbf{P}erspective \textbf{T}rans\textbf{former} network that revolutionizes UAV image segmentation. Our approach circumvents the need for actual multi-perspective data by creating pseudo perspectives for enhanced multi-perspective learning. The PPTFormer network boasts Perspective Representation, novel Perspective Prototypes, and a specialized encoder and decoder that together achieve superior segmentation results through Pseudo Multi-Perspective Attention (PMP Attention) and fusion. Our experiments demonstrate that PPTFormer achieves state-of-the-art performance across five UAV segmentation datasets, confirming its capability to effectively simulate UAV flight perspectives and significantly advance segmentation precision. This work presents a pioneering leap in UAV scene understanding and sets a new benchmark for future developments in semantic segmentation.
翻訳日:2024-07-12 22:18:16 公開日:2024-07-11
# 仮想コンテキスト:特殊トークン注入による脱獄攻撃の強化

Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection ( http://arxiv.org/abs/2406.19845v2 )

ライセンス: Link先を確認
Yuqi Zhou, Lin Lu, Hanchi Sun, Pan Zhou, Lichao Sun, (参考訳) 大規模言語モデル(LLM)に対するジェイルブレイク攻撃は、倫理や法律に違反した有害なコンテンツを生成するためにこれらのモデルを誘導し、LLMのセキュリティに重大な脅威をもたらす。 現在のジェイルブレイク攻撃は、防御策による成功率の低下と、特定のプロンプトを作るための高いリソース要求の2つの主な課題に直面している。 本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。 Virtual Contextは、既存のjailbreakメソッドの成功率を大幅に増加させ、ターゲットモデルに関するバックグラウンド知識を最小限にすることでこれらの課題に対処する。 総合的な評価では、仮想コンテキスト支援のジェイルブレイク攻撃は、様々なLLMで広く使われている4つのジェイルブレイク手法の成功率を約40%向上させることができる。 さらに、オリジナルの悪意のある振る舞いにVirtual Contextを適用することで、目立ったジェイルブレイク効果がもたらされる。 まとめると、我々の研究はジェイルブレイク攻撃における特別なトークンの可能性を強調し、LLMのセキュリティを包括的に強化するリピートテストにおけるこの脅威を含むことを推奨している。

Jailbreak attacks on large language models (LLMs) involve inducing these models to generate harmful content that violates ethics or laws, posing a significant threat to LLM security. Current jailbreak attacks face two main challenges: low success rates due to defensive measures and high resource requirements for crafting specific prompts. This paper introduces Virtual Context, which leverages special tokens, previously overlooked in LLM security, to improve jailbreak attacks. Virtual Context addresses these challenges by significantly increasing the success rates of existing jailbreak methods and requiring minimal background knowledge about the target model, thus enhancing effectiveness in black-box settings without additional overhead. Comprehensive evaluations show that Virtual Context-assisted jailbreak attacks can improve the success rates of four widely used jailbreak methods by approximately 40% across various LLMs. Additionally, applying Virtual Context to original malicious behaviors still achieves a notable jailbreak effect. In summary, our research highlights the potential of special tokens in jailbreak attacks and recommends including this threat in red-teaming testing to comprehensively enhance LLM security.
翻訳日:2024-07-12 22:08:28 公開日:2024-07-11
# Pistis-RAG: 信頼できる検索拡張世代に向けたスケーラブルなカスケーディングフレームワーク

Pistis-RAG: A Scalable Cascading Framework Towards Trustworthy Retrieval-Augmented Generation ( http://arxiv.org/abs/2407.00072v3 )

ライセンス: Link先を確認
Yu Bai, Yukai Miao, Li Chen, Dan Li, Yanyu Ren, Hongtao Xie, Ce Yang, Xuhui Cai, (参考訳) ギリシア神話では、ピスティスは信仰、信頼、信頼性を象徴していた。 これらの原則から着想を得たPristis-RAGは、大規模検索拡張世代システム(RAG)の課題に対処するために設計されたスケーラブルなマルチステージフレームワークである。 このフレームワークは、マッチング、序列、ランク付け、推論、集約という、異なるステージで構成されている。 各ステージは、検索空間の狭化、意味のある文書の優先順位付け、大きな言語モデル(LLM)の好みの整合化、複雑なチェーン・オブ・シント(CoT)メソッドのサポート、複数のソースからの情報の統合に寄与する。 我々のランク付け段階は、セマンティックな関連性だけでは生成品質が向上しない可能性があることを認識して、重要なイノベーションをもたらす。 この重要な側面は、しばしば現在のRAGフレームワークで見過ごされる。 我々は、LLMと外部知識ランキング手法の整合性問題は、RAGシステムにおいて支配的なモデル中心のパラダイムと結びついていると論じる。 本稿では,LLMと外部情報ソースのシームレスな統合を重視し,特定のタスクに対するコンテンツ変換を最適化する,コンテンツ中心のアプローチを提案する。 LLMの嗜好やユーザフィードバックに反映されるユニークなビジネスシナリオを考慮しつつ,情報検索の原則を取り入れた新しいランキングステージを設計する。 MMLUベンチマークでフィードバック信号をシミュレートし,9.3%の性能向上を実現した。 私たちのモデルとコードはGitHubでオープンソース化される予定です。 さらに、実世界の大規模データに関する実験は、我々のフレームワークのスケーラビリティを検証する。

In Greek mythology, Pistis symbolized good faith, trust, and reliability. Drawing inspiration from these principles, Pistis-RAG is a scalable multi-stage framework designed to address the challenges of large-scale retrieval-augmented generation (RAG) systems. This framework consists of distinct stages: matching, pre-ranking, ranking, reasoning, and aggregating. Each stage contributes to narrowing the search space, prioritizing semantically relevant documents, aligning with the large language model's (LLM) preferences, supporting complex chain-of-thought (CoT) methods, and combining information from multiple sources. Our ranking stage introduces a significant innovation by recognizing that semantic relevance alone may not lead to improved generation quality, due to the sensitivity of the few-shot prompt order, as noted in previous research. This critical aspect is often overlooked in current RAG frameworks. We argue that the alignment issue between LLMs and external knowledge ranking methods is tied to the model-centric paradigm dominant in RAG systems. We propose a content-centric approach, emphasizing seamless integration between LLMs and external information sources to optimize content transformation for specific tasks. Our novel ranking stage is designed specifically for RAG systems, incorporating principles of information retrieval while considering the unique business scenarios reflected in LLM preferences and user feedback. We simulated feedback signals on the MMLU benchmark, resulting in a 9.3% performance improvement. Our model and code will be open-sourced on GitHub. Additionally, experiments on real-world, large-scale data validate the scalability of our framework.
翻訳日:2024-07-12 22:08:28 公開日:2024-07-11
# WineGraph:食べ物とワインのペアリングのためのグラフ表現

WineGraph: A Graph Representation For Food-Wine Pairing ( http://arxiv.org/abs/2407.00107v2 )

ライセンス: Link先を確認
Zuzanna Gawrysiak, Agata Żywot, Agnieszka Ławrynowicz, (参考訳) We present WineGraph, a extended version of FlavorGraph, a heterogeneous graph in the structure。 この統合により、味覚とソムリエ定義規則に基づく食品とワインのペアリングが可能になる。 50万件のレビューと13万件以上のエントリを持つワインレビューデータセットからなる食品データセットを活用し、食品とワインの両方の味覚記述子を計算した。 この情報はその後、食品をワインと組み合わせ、FravorGraphを付加データと組み合わせるために利用された。 その結果、補足情報を得るための異種グラフの可能性が示され、ワインのペアリングに有益であることが証明された。

We present WineGraph, an extended version of FlavorGraph, a heterogeneous graph incorporating wine data into its structure. This integration enables food-wine pairing based on taste and sommelier-defined rules. Leveraging a food dataset comprising 500,000 reviews and a wine reviews dataset with over 130,000 entries, we computed taste descriptors for both food and wine. This information was then utilised to pair food items with wine and augment FlavorGraph with additional data. The results demonstrate the potential of heterogeneous graphs to acquire supplementary information, proving beneficial for wine pairing.
翻訳日:2024-07-12 22:08:28 公開日:2024-07-11
# コーパスフィルタを用いた不特定機能アライメントによる韓国のアスペクトベース感性分析

Korean Aspect-Based Sentiment Analysis via Implicit-Feature Alignment with Corpus Filtering ( http://arxiv.org/abs/2407.00342v2 )

ライセンス: Link先を確認
Kibeom Nam, (参考訳) 韓国のレストランレビューに対するアスペクトベース感性分析(ABSA)の調査は、既存の文献に特に欠落している。 本研究は,韓国語などの低リソース言語におけるABSAの直感的で効果的な枠組みを提案する。 翻訳されたベンチマークと未ラベルの韓国データを統合することで、予測ラベルを最適化する。 翻訳データに基づいて微調整されたモデルを用いて,実際の韓国のNLI集合を擬似ラベルした。 その後,この擬似NLI集合にLaBSEとMSPに基づくフィルタリングを適用し,追加訓練によりアスペクトカテゴリー検出と極性判定を増強した。 二重フィルタリングを取り入れたこのモデルはデータセットギャップを橋渡しし、最小限のリソースを持つ韓国のABSAで肯定的な結果を得た。 新たなデータ注入パイプラインを通じて,低リソースの言語国において,高リソースのデータを活用し,企業や個人を問わず,コミュニティ内で効果的なモデルを構築することを目的としている。 英語のABSAと比較すると,F1スコアと精度に約3%の差が認められた。 このリンクで、韓国のABSAのためのデータセットとコードをリリースします。

Investigations into Aspect-Based Sentiment Analysis (ABSA) for Korean restaurant reviews are notably lacking in the existing literature. Our research proposes an intuitive and effective framework for ABSA in low-resource languages such as Korean. It optimizes prediction labels by integrating translated benchmark and unlabeled Korean data. Using a model fine-tuned on translated data, we pseudo-labeled the actual Korean NLI set. Subsequently, we applied LaBSE and MSP-based filtering to this pseudo-NLI set as implicit feature, enhancing Aspect Category Detection and Polarity determination through additional training. Incorporating dual filtering, this model bridged dataset gaps, achieving positive results in Korean ABSA with minimal resources. Through additional data injection pipelines, our approach aims to utilize high-resource data and construct effective models within communities, whether corporate or individual, in low-resource language countries. Compared to English ABSA, our framework showed an approximately 3% difference in F1 scores and accuracy. We release the dataset and our code for Korean ABSA, at this link.
翻訳日:2024-07-12 22:08:28 公開日:2024-07-11
# 検索がすべて必要なら、それは本当に長いコンテキストか? - 難易度の高いロングコンテキストNLPに向けて

Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLP ( http://arxiv.org/abs/2407.00402v2 )

ライセンス: Link先を確認
Omer Goldman, Alon Jacovi, Aviv Slobodkin, Aviya Maimon, Ido Dagan, Reut Tsarfaty, (参考訳) 言語モデルの能力の向上により、より長いコンテキストに応用され、長期のコンテキスト評価と開発が活発な研究領域となっている。 しかし、多くの異なるユースケースは"long-context"という傘の用語の下でグループ化され、モデル入力の総長さによって定義される。 これらの課題が多様であることを踏まえ、本稿では、文脈長による異なるタスクの混在は非生産的であると論じる。 コミュニティとして、長いコンテキストのタスクが似ているか異なるかを理解するために、より正確な語彙が必要です。 我々は、長い文脈でそれらがより困難になる特性に基づいて、長い文脈の分類を解き放つことを提案する。 難易度の直交軸を2つ提案する: (I)拡散: 文脈で必要な情報を見つけるのがどのくらい難しいか? (II) Scope: 必要な情報はどの程度ありますか? 我々は、長文の文献を調査し、この分類を情報記述者として正当化し、それに関する文献を整理する。 必要な情報が非常に長く、入力内で非常に拡散している、最も困難で興味深い設定は、非常に過度に探索されている、と結論付けている。 記述語彙を用いて、長文における難易度の関連性について議論することにより、この領域でより深い研究を行うことができる。 より短いコンテキストと定性的に異なる特徴を考慮し、明確に長いコンテキストでタスクとベンチマークを慎重に設計することを求めている。

Improvements in language models' capabilities have pushed their applications towards longer contexts, making long-context evaluation and development an active research area. However, many disparate use-cases are grouped together under the umbrella term of "long-context", defined simply by the total length of the model's input, including - for example - Needle-in-a-Haystack tasks, book summarization, and information aggregation. Given their varied difficulty, in this position paper we argue that conflating different tasks by their context length is unproductive. As a community, we require a more precise vocabulary to understand what makes long-context tasks similar or different. We propose to unpack the taxonomy of long-context based on the properties that make them more difficult with longer contexts. We propose two orthogonal axes of difficulty: (I) Diffusion: How hard is it to find the necessary information in the context? (II) Scope: How much necessary information is there to find? We survey the literature on long-context, provide justification for this taxonomy as an informative descriptor, and situate the literature with respect to it. We conclude that the most difficult and interesting settings, whose necessary information is very long and highly diffused within the input, is severely under-explored. By using a descriptive vocabulary and discussing the relevant properties of difficulty in long-context, we can implement more informed research in this area. We call for a careful design of tasks and benchmarks with distinctly long context, taking into account the characteristics that make it qualitatively different from shorter context.
翻訳日:2024-07-12 22:08:28 公開日:2024-07-11
# 研究課題の魚骨図--特定の研究トピックを鳥眼で見る

Fish-bone diagram of research issue: Gain a bird's-eye view on a specific research topic ( http://arxiv.org/abs/2407.01553v2 )

ライセンス: Link先を確認
JingHong Li, Huy Phan, Wen Gu, Koichi Ota, Shinobu Hasegawa, (参考訳) 初心者研究者は、多くの学術論文を理解し、新しい研究分野の基礎を把握することの難しさに直面することが多い。 このような問題を解決するため、知識グラフ研究支援調査が徐々に発展しつつある。 既存のキーワードベースの知識グラフは、研究者が抽象概念を深く理解することが困難である。 一方、初心者研究者は、研究分野の理解が限られているため、ChatGPTを研究調査に効果的に利用することは困難である可能性がある。 この大きな言語モデル(LLM)から希望的かつ正確な回答を得ることは、重要な概念に合致する熟練した質問を問う能力がなければ、非効率である可能性がある。 本研究は, 因果関係を含む魚骨図を提供することにより, 初心者研究者を支援することを目的としている。 ダイアグラムは学術論文の課題オントロジーを用いて構築され、関連性と論理的要因に基づいて、研究分野の幅広い、高度に一般化された視点を提供する。 さらに,本研究の展開パターンから得られた魚骨図の強度と即効点を評価し,本研究を支援するための有効なツールとしての可能性を強調した。

Novice researchers often face difficulties in understanding a multitude of academic papers and grasping the fundamentals of a new research field. To solve such problems, the knowledge graph supporting research survey is gradually being developed. Existing keyword-based knowledge graphs make it difficult for researchers to deeply understand abstract concepts. Meanwhile, novice researchers may find it difficult to use ChatGPT effectively for research surveys due to their limited understanding of the research field. Without the ability to ask proficient questions that align with key concepts, obtaining desired and accurate answers from this large language model (LLM) could be inefficient. This study aims to help novice researchers by providing a fish-bone diagram that includes causal relationships, offering an overview of the research topic. The diagram is constructed using the issue ontology from academic papers, and it offers a broad, highly generalized perspective of the research field, based on relevance and logical factors. Furthermore, we evaluate the strengths and improvable points of the fish-bone diagram derived from this study's development pattern, emphasizing its potential as a viable tool for supporting research survey.
翻訳日:2024-07-12 22:08:28 公開日:2024-07-11
# 量子カリキュラム学習

Quantum Curriculum Learning ( http://arxiv.org/abs/2407.02419v2 )

ライセンス: Link先を確認
Quoc Hoan Tran, Yasuhiro Endo, Hirotaka Oshima, (参考訳) 量子機械学習(QML)は、量子優位性を達成するために重要な量子リソースを必要とする。 研究は、量子アーキテクチャの効率的な設計と、リソース使用を最適化するための学習戦略の開発の両方を優先すべきである。 本稿では,量子データのための量子カリキュラム学習(Q-CurL)というフレームワークを提案する。 課題間のデータ密度比に基づいてカリキュラムの基準を定義し,カリキュラムの順序を決定する。 また、損失関数の最適化における量子データの重要性を強調するために、動的学習スケジュールを実装した。 実証的な証拠は、Q-CurLが一元学習タスクのトレーニング収束と一般化を著しく促進し、量子位相認識タスクの堅牢性を向上させることを示している。 我々のフレームワークは一般的な学習戦略を提供し、QMLを実用的な利点の実現に近づけます。

Quantum machine learning (QML) requires significant quantum resources to achieve quantum advantage. Research should prioritize both the efficient design of quantum architectures and the development of learning strategies to optimize resource usage. We propose a framework called quantum curriculum learning (Q-CurL) for quantum data, where the curriculum introduces simpler tasks or data to the learning model before progressing to more challenging ones. We define the curriculum criteria based on the data density ratio between tasks to determine the curriculum order. We also implement a dynamic learning schedule to emphasize the significance of quantum data in optimizing the loss function. Empirical evidence shows that Q-CurL significantly enhances the training convergence and the generalization for unitary learning tasks and improves the robustness of quantum phase recognition tasks. Our framework provides a general learning strategy, bringing QML closer to realizing practical advantages.
翻訳日:2024-07-12 22:08:28 公開日:2024-07-11
# CAV-AHDV-CAV:新しい自動車追従構造と強化学習によるCAVの交通振動緩和

CAV-AHDV-CAV: Mitigating Traffic Oscillations for CAVs through a Novel Car-Following Structure and Reinforcement Learning ( http://arxiv.org/abs/2407.02517v2 )

ライセンス: Link先を確認
Xianda Chen, PakHin Tiu, Yihuai Zhang, Xinhu Zheng, Meixin Zhu, (参考訳) Connected and Automated Vehicles (CAVs)は、CAVとHuman-Driven Vehicles (HDVs)の両方との混在という課題に対して、有望な解決策を提供する。 このようなシナリオにおける大きなハードルは、車の追従状況下での交通振動("stop-and-go"パターン)である。 HDVは限られた情報に依存しているが、CAVは意思決定を改善するために他のCAVのデータを利用することができる。 これにより、CAVは、トラフィックフローを悪化させる減速波の拡散を予測し、緩和することができる。 本稿では2つのCAV間のHDVのシーケンスを1つのエンティティとして扱い、個々のドライバの動作からノイズを除去する「CAV-AHDV-CAV」カー追従フレームワークを提案する。 この深層強化学習アプローチは車両平衡状態を分析し、状態融合戦略を用いる。 さまざまなデータセット(HighD, NGSIM, SPMD, Waymo, Lyft)でトレーニングおよびテストを行い,70,000以上の自動車追跡インスタンスを対象とする。 これらの結果から,混合交通に対するロバストなCAV制御戦略の開発において,本手法の有効性が示された。 我々のモデルは、交通振動を緩和し、交通流効率を向上し、全体的な安全性を高める可能性を持っている。

Connected and Automated Vehicles (CAVs) offer a promising solution to the challenges of mixed traffic with both CAVs and Human-Driven Vehicles (HDVs). A significant hurdle in such scenarios is traffic oscillation, or the "stop-and-go" pattern, during car-following situations. While HDVs rely on limited information, CAVs can leverage data from other CAVs for better decision-making. This allows CAVs to anticipate and mitigate the spread of deceleration waves that worsen traffic flow. We propose a novel "CAV-AHDV-CAV" car-following framework that treats the sequence of HDVs between two CAVs as a single entity, eliminating noise from individual driver behaviors. This deep reinforcement learning approach analyzes vehicle equilibrium states and employs a state fusion strategy. Trained and tested on diverse datasets (HighD, NGSIM, SPMD, Waymo, Lyft) encompassing over 70,000 car-following instances, our model outperforms baselines in collision avoidance, maintaining equilibrium with both preceding and leading vehicles and achieving the lowest standard deviation of time headway. These results demonstrate the effectiveness of our approach in developing robust CAV control strategies for mixed traffic. Our model has the potential to mitigate traffic oscillation, improve traffic flow efficiency, and enhance overall safety.
翻訳日:2024-07-12 22:08:28 公開日:2024-07-11
# フェアネスを指向した潜在クラス分析による複数グループ間の交叉断面積の定量化

Quantifying the Cross-sectoral Intersecting Discrepancies within Multiple Groups Using Latent Class Analysis Towards Fairness ( http://arxiv.org/abs/2407.03133v2 )

ライセンス: Link先を確認
Yingfang Yuan, Kefan Chen, Mehdi Rizvi, Lynne Baillie, Wei Pang, (参考訳) 公正なAI開発への関心が高まっていることは明らかだ。 この'Leave No One Behind'イニシアチブは、サービス、リソース、機会へのアクセスにおける不平等の多様かつ交差する形態に対処し、AIにおける公平性の重要性を強調します。 これは、リソース割り当てやサービススキーム開発といった意思決定プロセスに適用されるAIツールの数が、健康、エネルギー、住宅など、さまざまな分野にまたがって増加していることに関連している。 したがって、これらの分野における共同不平等の探求は、全体的な不平等と不公平を徹底的に理解するために重要かつ価値のあるものである。 本研究では、潜在クラス分析を用いて、ユーザ定義グループ間でのクロスセクタ間交差の差異を定量化する革新的な手法を提案する。 これらの相違は不等式を近似し、公平性問題に対する貴重な洞察を与えるために用いられる。 EVENS と Census 2021 (England & Wales) のデータセットを含む,プロプライエタリなデータセットとパブリックなデータセットの両方を用いて,異なる民族集団間の相互交差不一致を検証した。 また、官公立計量と相関分析を行うことにより、定量化の不一致の信頼性を検証した。 我々の発見は、少数民族間の大きな相違が明らかとなり、現実世界のAIアプリケーションにおいて標的となる介入の必要性が浮かび上がっている。 さらに、機械学習の公平性に関する洞察を提供するために、提案手法をどのように利用できるかを実証する。

The growing interest in fair AI development is evident. The ''Leave No One Behind'' initiative urges us to address multiple and intersecting forms of inequality in accessing services, resources, and opportunities, emphasising the significance of fairness in AI. This is particularly relevant as an increasing number of AI tools are applied to decision-making processes, such as resource allocation and service scheme development, across various sectors such as health, energy, and housing. Therefore, exploring joint inequalities in these sectors is significant and valuable for thoroughly understanding overall inequality and unfairness. This research introduces an innovative approach to quantify cross-sectoral intersecting discrepancies among user-defined groups using latent class analysis. These discrepancies can be used to approximate inequality and provide valuable insights to fairness issues. We validate our approach using both proprietary and public datasets, including EVENS and Census 2021 (England & Wales) datasets, to examine cross-sectoral intersecting discrepancies among different ethnic groups. We also verify the reliability of the quantified discrepancy by conducting a correlation analysis with a government public metric. Our findings reveal significant discrepancies between minority ethnic groups, highlighting the need for targeted interventions in real-world AI applications. Additionally, we demonstrate how the proposed approach can be used to provide insights into the fairness of machine learning.
翻訳日:2024-07-12 22:08:28 公開日:2024-07-11
# Venomancer:フェデレートラーニングにおける非知覚的かつ目標的バックドアアタックを目指して

Venomancer: Towards Imperceptible and Target-on-Demand Backdoor Attacks in Federated Learning ( http://arxiv.org/abs/2407.03144v2 )

ライセンス: Link先を確認
Son Nguyen, Thinh Nguyen, Khoa D Doan, Kok-Seng Wong, (参考訳) Federated Learning(FL)は、分散型データソースのトレーニングによってデータのプライバシを維持する分散機械学習アプローチである。 集中型機械学習と同様に、FLはバックドア攻撃にも感受性があり、攻撃者はそれらのクライアントのローカルモデルにバックドアトリガーを注入することで、一部のクライアントを妥協することができる。 FLのバックドア攻撃のほとんどは、事前に定義されたターゲットクラスを前提としており、多数のクライアントの制御や、良心的なクライアントの情報に関する知識を必要とする。 また、毒データに残されている鮮明な遺物により、人体検査により容易に検出される。 これらの課題を克服するために,我々は,効果的なバックドア攻撃であるVenomancerを提案する。 具体的には、視覚的損失関数を用いて、毒データを元のデータと視覚的に区別できるようにする。 Target-on-demandプロパティにより、攻撃者は条件付き逆行訓練によって任意のターゲットクラスを選択することができる。 さらに,Norm Clipping,Weak DP,Krum,Multi-Krum,RLR,FedRAD,Deepsight,RFLBATなど,最先端の防御に対して堅牢であることを示した。 ソースコードはhttps://github.com/nguyenhongson1902/Venomancerで入手できる。

Federated Learning (FL) is a distributed machine learning approach that maintains data privacy by training on decentralized data sources. Similar to centralized machine learning, FL is also susceptible to backdoor attacks, where an attacker can compromise some clients by injecting a backdoor trigger into local models of those clients, leading to the global model's behavior being manipulated as desired by the attacker. Most backdoor attacks in FL assume a predefined target class and require control over a large number of clients or knowledge of benign clients' information. Furthermore, they are not imperceptible and are easily detected by human inspection due to clear artifacts left on the poison data. To overcome these challenges, we propose Venomancer, an effective backdoor attack that is imperceptible and allows target-on-demand. Specifically, imperceptibility is achieved by using a visual loss function to make the poison data visually indistinguishable from the original data. Target-on-demand property allows the attacker to choose arbitrary target classes via conditional adversarial training. Additionally, experiments showed that the method is robust against state-of-the-art defenses such as Norm Clipping, Weak DP, Krum, Multi-Krum, RLR, FedRAD, Deepsight, and RFLBAT. The source code is available at https://github.com/nguyenhongson1902/Venomancer.
翻訳日:2024-07-12 22:08:28 公開日:2024-07-11
# MuDiT & MuSiT:記述音声生成における口語表現のアライメント

MuDiT & MuSiT: Alignment with Colloquial Expression in Description-to-Song Generation ( http://arxiv.org/abs/2407.03188v2 )

ライセンス: Link先を確認
Zihao Wang, Haoxuan Liu, Jiaxing Yu, Tao Zhang, Yan Liu, Kejun Zhang, (参考訳) 生成的AIと人間の芸術的プロセスの交わりが増す中、本研究では人間中心の自動作曲において、重要かつ探索の少ないアライメントの地形を探索する。 本稿では,生成した内容と人間の表現との整合性に着目した,口語記述音声生成の新しい課題を提案する。 この課題は,AIモデルにおける言語理解と聴覚表現のギャップを埋めることを目的としており,人間の聴覚的期待を正確に満たし,音楽的規範と構造的に整合する曲を作ることが究極の目標である。 現在のデータセットは、その狭い記述範囲、セマンティックギャップ、不正確さのために制限されている。 この領域におけるデータの不足を克服するため,CaiMD (Caichong Music Dataset) を提案する。 CaiMDはプロのミュージシャンとアマチュアの両方によって手動で注釈付けされ、多様な視点と口語的記述の包括的な理解を提供する。 専門家のアノテーションや、固有のバイアスを持つ自動生成のデータセットと異なり、CaiMDは、AI生成した音楽と幅広いユーザー要求の結果とを合わせるという私たちの目的に十分対応しています。 また,楽曲作成において効果的な人間・機械のアライメントを実現するために,MuDiT/MuSiTと呼ばれる革新的なシングルステージフレームワークを提案する。 このフレームワークは、口語と聴覚音楽の知覚の相互理解を達成するだけでなく、生成した曲がユーザの希望する結果と一致することを保証する。 MuDiT/MuSiTは、メロディ、ハーモニー、リズム、ボーカル、インスツルメンテーションなどの音楽コンポーネントをエンドツーエンドに生成するために、1つのDiT/SiTモデルを使用する。 このアプローチは、生成したすべての音楽成分間の調和した音素の結合性を確保し、人間の聴覚的期待とよりよく共鳴させる。

Amid the rising intersection of generative AI and human artistic processes, this study probes the critical yet less-explored terrain of alignment in human-centric automatic song composition. We propose a novel task of Colloquial Description-to-Song Generation, which focuses on aligning the generated content with colloquial human expressions. This task is aimed at bridging the gap between colloquial language understanding and auditory expression within an AI model, with the ultimate goal of creating songs that accurately satisfy human auditory expectations and structurally align with musical norms. Current datasets are limited due to their narrow descriptive scope, semantic gaps and inaccuracies. To overcome data scarcity in this domain, we present the Caichong Music Dataset (CaiMD). CaiMD is manually annotated by both professional musicians and amateurs, offering diverse perspectives and a comprehensive understanding of colloquial descriptions. Unlike existing datasets pre-set with expert annotations or auto-generated ones with inherent biases, CaiMD caters more sufficiently to our purpose of aligning AI-generated music with widespread user-desired results. Moreover, we propose an innovative single-stage framework called MuDiT/MuSiT for enabling effective human-machine alignment in song creation. This framework not only achieves cross-modal comprehension between colloquial language and auditory music perceptions but also ensures generated songs align with user-desired results. MuDiT/MuSiT employs one DiT/SiT model for end-to-end generation of musical components like melody, harmony, rhythm, vocals, and instrumentation. The approach ensures harmonious sonic cohesiveness amongst all generated musical components, facilitating better resonance with human auditory expectations.
翻訳日:2024-07-12 22:08:28 公開日:2024-07-11
# エネルギー管理システムにおける予測と政策安定性について

Predict. Optimize. Revise. On Forecast and Policy Stability in Energy Management Systems ( http://arxiv.org/abs/2407.03368v2 )

ライセンス: Link先を確認
Evgenii Genov, Julian Ruddick, Christoph Bergmeir, Majid Vafaeipour, Thierry Coosemans, Salvador Garcia, Maarten Messagie, (参考訳) 本研究は, スイッチングコスト, 予測精度, 安定性の影響に着目し, エネルギー管理システムにおける予測と最適化の統合という課題に対処する。 スイッチングコストを用いてオンライン最適化問題を解析し,決定論的および確率的予測によって実現するための新しいフレームワークを提案する。 実証評価と理論的解析により, 予測精度, 安定性, スイッチングコストのバランスが明らかとなった。 エネルギー管理アプリケーションにおけるバッテリスケジューリングの文脈で実施され、確率的予測安定性を評価するための指標を導入し、Citylearn 2022コンペティションの実例を用いて、予測精度と安定性が最適化結果に及ぼす影響を検討する。 その結果, スイッチングコストが予測精度と安定性のトレードオフに大きく影響し, 予測ユニットと運用ユニットの協調による意思決定の改善を可能にする統合システムの重要性が浮き彫りになった。 この研究は、ポリシーに長い期間コミットすることは、頻繁な更新よりも有利であることを示している。 また, 予測安定性と政策性能の相関関係が示され, 安定予測がスイッチングコストを軽減できることが示唆された。 提案フレームワークは,エネルギー管理システムの運用設計において,エネルギーセクターの意思決定者や予測実践者に対して貴重な洞察を提供する。

This research addresses the challenge of integrating forecasting and optimization in energy management systems, focusing on the impacts of switching costs, forecast accuracy, and stability. It proposes a novel framework for analyzing online optimization problems with switching costs and enabled by deterministic and probabilistic forecasts. Through empirical evaluation and theoretical analysis, the research reveals the balance between forecast accuracy, stability, and switching costs in shaping policy performance. Conducted in the context of battery scheduling within energy management applications, it introduces a metric for evaluating probabilistic forecast stability and examines the effects of forecast accuracy and stability on optimization outcomes using the real-world case of the Citylearn 2022 competition. Findings indicate that switching costs significantly influence the trade-off between forecast accuracy and stability, highlighting the importance of integrated systems that enable collaboration between forecasting and operational units for improved decision-making. The study shows that committing to a policy for longer periods can be advantageous over frequent updates. Results also show a correlation between forecast stability and policy performance, suggesting that stable forecasts can mitigate switching costs. The proposed framework provides valuable insights for energy sector decision-makers and forecast practitioners when designing the operation of an energy management system.
翻訳日:2024-07-12 22:08:28 公開日:2024-07-11
# 再サンプリングされたデータセットは不十分。単一属性を超える社会的なバイアスを緩和する

Resampled Datasets Are Not Enough: Mitigating Societal Bias Beyond Single Attributes ( http://arxiv.org/abs/2407.03623v2 )

ライセンス: Link先を確認
Yusuke Hirota, Jerone T. A. Andrews, Dora Zhao, Orestis Papakyriakopoulos, Apostolos Modas, Yuta Nakashima, Alice Xiang, (参考訳) 我々は、保護されたグループと画像属性の急激な相関を取り除き、画像テキストデータセットの社会的バイアスに取り組む。 従来の手法はラベル付属性のみを対象としており、ラベル付属性のバイアスを無視している。 テキスト誘導インペイントモデルを用いることで、すべての属性から保護されたグループ独立を保証し、データフィルタリングによるインペイントバイアスを軽減する。 マルチラベル画像分類と画像キャプションタスクの評価は,様々なモデルにまたがる性能を損なうことなく,効果的にバイアスを低減できることを示す。

We tackle societal bias in image-text datasets by removing spurious correlations between protected groups and image attributes. Traditional methods only target labeled attributes, ignoring biases from unlabeled ones. Using text-guided inpainting models, our approach ensures protected group independence from all attributes and mitigates inpainting biases through data filtering. Evaluations on multi-label image classification and image captioning tasks show our method effectively reduces bias without compromising performance across various models.
翻訳日:2024-07-12 22:08:28 公開日:2024-07-11
# オンライン計算ツールから自動抽出される言語的特徴を用いた人書きテキストとAI生成テキストの識別

Differentiating between human-written and AI-generated texts using linguistic features automatically extracted from an online computational tool ( http://arxiv.org/abs/2407.03646v2 )

ライセンス: Link先を確認
Georgios P. Georgiou, (参考訳) 近年ではChatGPTに焦点が当てられているが、人間の書き起こし言語と人工知能(AI)生成言語の間の言語的特徴を体系的に定量化し比較する研究はほとんどない。 本研究の目的は,AIが人間の文章をエミュレートする能力を評価することにある。 人によるエッセイをベンチマークとして使用し、ChatGPTに同等の長さのエッセイを生成するように促しました。 これらのテキストは、オンライン計算ツールであるOpen Brain AIを用いて分析され、音韻学、形態学、構文学、語彙構成成分の尺度を抽出した。 その結果, 人間の発話を模倣したAI生成テキストが現れるにもかかわらず, 子音, 単語ストレス, 名詞, 動詞, 代名詞, 直接目的語, 前置詞修飾語, 難解語の使用など, 複数の言語的特徴に有意な差異が認められた。 これらの知見は、効率的な言語評価、データ分析における時間と労力の削減のための自動化ツールの統合の重要性を浮き彫りにしている。 さらに、より人間的なテキストを生成するために、AIの能力を向上させるためのトレーニング方法論を強化する必要性を強調している。

While extensive research has focused on ChatGPT in recent years, very few studies have systematically quantified and compared linguistic features between human-written and Artificial Intelligence (AI)-generated language. This study aims to investigate how various linguistic components are represented in both types of texts, assessing the ability of AI to emulate human writing. Using human-authored essays as a benchmark, we prompted ChatGPT to generate essays of equivalent length. These texts were analyzed using Open Brain AI, an online computational tool, to extract measures of phonological, morphological, syntactic, and lexical constituents. Despite AI-generated texts appearing to mimic human speech, the results revealed significant differences across multiple linguistic features such as consonants, word stress, nouns, verbs, pronouns, direct objects, prepositional modifiers, and use of difficult words among others. These findings underscore the importance of integrating automated tools for efficient language assessment, reducing time and effort in data analysis. Moreover, they emphasize the necessity for enhanced training methodologies to improve the capacity of AI for producing more human-like text.
翻訳日:2024-07-12 21:58:43 公開日:2024-07-11
# 対称ビーム変位設計による高品質光子源

High-quality entangled photon source by symmetric beam displacement design ( http://arxiv.org/abs/2407.03806v2 )

ライセンス: Link先を確認
Giacomo Paganini, Alvaro Cuevas, Robin Camphausen, Alexander Demuth, Valerio Pruneri, (参考訳) 絡み合った光子源(EPS)は、量子通信、計算、センシングの進展において重要である。 例外的な(フェーズ)安定性を特徴とする、効率的で堅牢なEPSを現場に展開する需要は、ますます顕在化しつつある。 この研究は偏光絡み合った光子源を導入し、タイプ0の自発パラメトリックダウンコンバージョンを利用し、商用のバルク光学部品を用いて構築する。 我々のシステムは汎用的であり、センサアプリケーションや量子鍵分布プロトコルのためのベル状態に対するN00N状態の生成を可能にする。 平均交絡視力は99%を超える最大ベル不平等違反を認めた。 さらなるパフォーマンス向上の可能性も検討されている。

Entangled photon sources (EPSs) are pivotal in advancing quantum communication, computing and sensing. The demand for deploying efficient, robust EPSs in the field, characterized by exceptional (phase) stability, has become increasingly apparent. This work introduces a polarization-entangled photon source, leveraging type-0 spontaneous parametric down-conversion, and constructed using commercial bulk optomechanical components. Our system is versatile, enabling the generation of N00N states for sensing applications or Bell states for quantum key distribution protocols. We attained a maximal Bell inequality violation, with the average entanglement visibility exceeding 99% . The potential for further performance enhancements is also explored.
翻訳日:2024-07-12 21:58:43 公開日:2024-07-11
# 表面欠陥検出のための学習自由分布データ増大のための潜時拡散モデル

Leveraging Latent Diffusion Models for Training-Free In-Distribution Data Augmentation for Surface Defect Detection ( http://arxiv.org/abs/2407.03961v2 )

ライセンス: Link先を確認
Federico Girella, Ziyue Liu, Franco Fummi, Francesco Setti, Marco Cristani, Luigi Capogrosso, (参考訳) 欠陥検出は、生産サンプルの欠陥を特定するタスクである。 通常、欠陥検出分類器は、通常のサンプル(負のデータ)と欠陥のあるサンプル(正データ)によって形成される地中構造データに基づいて訓練される。 State-of-the-the-art data augmentation procedure add synthetic defect data by superimposing artifacts to normal sample to mitigate problems related to un Balanced training data。 これらの技術は、しばしば分布外画像を生成するため、通常のサンプルではないものを学習するが、欠陥がどのようなものか正確に識別することができないシステムとなる。 本研究では、データ拡張のためのトレーニング不要な拡散型In-distribution Anomaly GenerationパイプラインであるDIAGを紹介する。 従来の画像生成技術とは異なり、我々は、ドメインの専門家がテキスト記述と可能な異常の領域ローカライゼーションを通じてモデルへのマルチモーダルガイダンスを提供する、ヒューマン・イン・ザ・ループ・パイプラインを実装している。 この戦略的シフトは結果の解釈可能性を高め、より堅牢なフィードバックループを促進し、生成された出力の反復的改善を促進する。 注目すべきことに,本手法はゼロショット方式で動作し,優れた性能を達成しつつ,時間を要する微調整手順を回避する。 KSDD2データセットに対する最先端データ拡張アプローチに対するDIAGの有効性と汎用性を実証し、正のサンプルが利用可能であればAPが約18%、欠落時には28%改善した。 ソースコードはhttps://github.com/intelligolabs/DIAGで入手できる。

Defect detection is the task of identifying defects in production samples. Usually, defect detection classifiers are trained on ground-truth data formed by normal samples (negative data) and samples with defects (positive data), where the latter are consistently fewer than normal samples. State-of-the-art data augmentation procedures add synthetic defect data by superimposing artifacts to normal samples to mitigate problems related to unbalanced training data. These techniques often produce out-of-distribution images, resulting in systems that learn what is not a normal sample but cannot accurately identify what a defect looks like. In this work, we introduce DIAG, a training-free Diffusion-based In-distribution Anomaly Generation pipeline for data augmentation. Unlike conventional image generation techniques, we implement a human-in-the-loop pipeline, where domain experts provide multimodal guidance to the model through text descriptions and region localization of the possible anomalies. This strategic shift enhances the interpretability of results and fosters a more robust human feedback loop, facilitating iterative improvements of the generated outputs. Remarkably, our approach operates in a zero-shot manner, avoiding time-consuming fine-tuning procedures while achieving superior performance. We demonstrate the efficacy and versatility of DIAG with respect to state-of-the-art data augmentation approaches on the challenging KSDD2 dataset, with an improvement in AP of approximately 18% when positive samples are available and 28% when they are missing. The source code is available at https://github.com/intelligolabs/DIAG.
翻訳日:2024-07-12 21:58:43 公開日:2024-07-11
# 複数制約構成による複合命令のベンチマーク

Benchmarking Complex Instruction-Following with Multiple Constraints Composition ( http://arxiv.org/abs/2407.03978v2 )

ライセンス: Link先を確認
Bosi Wen, Pei Ke, Xiaotao Gu, Lindong Wu, Hao Huang, Jinfeng Zhou, Wenchuang Li, Binxin Hu, Wendy Gao, Jiaxin Xu, Yiming Liu, Jie Tang, Hongning Wang, Minlie Huang, (参考訳) 以下の命令は、大規模言語モデル(LLM)の基本機能のひとつです。 LLMの能力は常に改善されているため、現実のシナリオにおいて複雑なヒューマンインストラクションを扱うためにますます応用されている。 そのため,LLMの複雑な指示追従能力の評価方法が重要な研究課題となっている。 既存のベンチマークは主に、複雑な命令において必須の構成要素である異なる制約の構成を無視しながら、人間の命令で異なるタイプの制約をモデル化することに焦点を当てている。 この目的のために,複数の制約からなる複雑な命令に従うLLMの能力を総合的に評価するベンチマークである ComplexBench を提案する。 本研究では,4つの制約型,19個の制約次元,4つの構成型を含む複雑な命令に対する階層的な分類法を提案し,それに従って高品質なデータセットを手作業で収集する。 評価を信頼性のあるものにするため、LLMに基づく評価器をルールで強化し、生成されたテキストがそれぞれの制約や構成を満たすことができるかどうかを効果的に検証する。 さらに,異なる構成型によって決定される依存性構造に基づいて,最終的な評価スコアを得る。 ComplexBenchは、複数の制約構成を持つ複雑な命令を扱う際に、既存のLLMの重大な欠陥を特定する。

Instruction following is one of the fundamental capabilities of large language models (LLMs). As the ability of LLMs is constantly improving, they have been increasingly applied to deal with complex human instructions in real-world scenarios. Therefore, how to evaluate the ability of complex instruction-following of LLMs has become a critical research problem. Existing benchmarks mainly focus on modeling different types of constraints in human instructions while neglecting the composition of different constraints, which is an indispensable constituent in complex instructions. To this end, we propose ComplexBench, a benchmark for comprehensively evaluating the ability of LLMs to follow complex instructions composed of multiple constraints. We propose a hierarchical taxonomy for complex instructions, including 4 constraint types, 19 constraint dimensions, and 4 composition types, and manually collect a high-quality dataset accordingly. To make the evaluation reliable, we augment LLM-based evaluators with rules to effectively verify whether generated texts can satisfy each constraint and composition. Furthermore, we obtain the final evaluation score based on the dependency structure determined by different composition types. ComplexBench identifies significant deficiencies in existing LLMs when dealing with complex instructions with multiple constraints composition.
翻訳日:2024-07-12 21:58:43 公開日:2024-07-11
# Slice-100K: 押出し型3Dプリンティングのためのマルチモーダルデータセット

Slice-100K: A Multimodal Dataset for Extrusion-based 3D Printing ( http://arxiv.org/abs/2407.04180v2 )

ライセンス: Link先を確認
Anushrut Jignasu, Kelly O. Marshall, Ankush Kumar Mishra, Lucas Nerone Rillo, Baskar Ganapathysubramanian, Aditya Balu, Chinmay Hegde, Adarsh Krishnamurthy, (参考訳) Gコード(Geometric code)またはRS-274は、最も広く使われているコンピュータ数値制御(CNC)および3Dプリンティング言語である。 G符号は、特にノズル、ステージ、押出成形用材料の押出のための3Dプリンタの移動のための機械指示を提供する。 現在、加法製造用のGコードファイルとともに、キュレートされたCADモデルの大規模なリポジトリは存在しない。 この問題に対処するため、SLICE-100Kは100,000以上のGコードファイルからなる第一種データセットであり、CADモデル、LVIS(Large Vocabulary Instance Segmentation)カテゴリ、幾何学的特性、レンダリングも備えている。 我々はObjaverse-XLおよびThingi10Kデータセットから派生した三角メッシュからデータセットを構築する。 従来のGコードフォーマット(Sailfish)から、より現代的で広く使われているフォーマット(Marlin)へのGコード変換のためのデータセットのサブセットにGPT-2を微調整することで、このデータセットの有用性を実証する。 SLICE-100Kは、デジタル製造のためのマルチモーダル基盤モデルを開発するための第一歩となる。

G-code (Geometric code) or RS-274 is the most widely used computer numerical control (CNC) and 3D printing programming language. G-code provides machine instructions for the movement of the 3D printer, especially for the nozzle, stage, and extrusion of material for extrusion-based additive manufacturing. Currently there does not exist a large repository of curated CAD models along with their corresponding G-code files for additive manufacturing. To address this issue, we present SLICE-100K, a first-of-its-kind dataset of over 100,000 G-code files, along with their tessellated CAD model, LVIS (Large Vocabulary Instance Segmentation) categories, geometric properties, and renderings. We build our dataset from triangulated meshes derived from Objaverse-XL and Thingi10K datasets. We demonstrate the utility of this dataset by finetuning GPT-2 on a subset of the dataset for G-code translation from a legacy G-code format (Sailfish) to a more modern, widely used format (Marlin). SLICE-100K will be the first step in developing a multimodal foundation model for digital manufacturing.
翻訳日:2024-07-12 21:58:43 公開日:2024-07-11
# HAF-RM:リワードモデルトレーニングのためのハイブリッドアライメントフレームワーク

HAF-RM: A Hybrid Alignment Framework for Reward Model Training ( http://arxiv.org/abs/2407.04185v2 )

ライセンス: Link先を確認
Shujun Liu, Xiaoyu Shen, Yuhang Lai, Siyuan Wang, Shengbin Yue, Zengfeng Huang, Xuanjing Huang, Zhongyu Wei, (参考訳) 報奨モデルは、大規模言語モデル(LLM)のアライメント、アセスメント、データ構築においてますます重要になっている。 既存の研究者の多くは、予測された報酬を直接最適化する報酬モデルのための従来のトレーニングフレームワークに従って、データ改善を通じて報酬モデルを強化することに重点を置いている。 本稿では,報酬スコアに加えてトークンレベルの政策確率に制約を加えることで,報酬モデルトレーニングのためのハイブリッドアライメントフレームワークHaF-RMを提案する。 トークンレベルで内部の嗜好モデルを同時に監視し、シーケンスレベルで報酬モデルのマッピング層を最適化することができる。 5つのデータセットの理論的正当性と実験結果から,高品質の報酬モデルをトレーニングするためのハイブリッドフレームワークの有効性と有効性を示した。 我々のHaF-RMフレームワークは、報酬モデリング手順を分離し、ハイブリッド・インスペクションを取り入れることで、強力な言語モデルの開発において重要な要素である報酬モデルの性能とアライメントを向上させるための原則的かつ効果的なアプローチを提供する。 コードをhttps://haf-rm.github.ioでリリースします。

The reward model has become increasingly important in alignment, assessment, and data construction for large language models (LLMs). Most existing researchers focus on enhancing reward models through data improvements, following the conventional training framework for reward models that directly optimizes the predicted rewards. In this paper, we propose a hybrid alignment framework HaF-RM for reward model training by introducing an additional constraint on token-level policy probabilities in addition to the reward score. It can simultaneously supervise the internal preference model at the token level and optimize the mapping layer of the reward model at the sequence level. Theoretical justifications and experiment results on five datasets show the validity and effectiveness of our proposed hybrid framework for training a high-quality reward model. By decoupling the reward modeling procedure and incorporating hybrid supervision, our HaF-RM framework offers a principled and effective approach to enhancing the performance and alignment of reward models, a critical component in the responsible development of powerful language models. We release our code at https://haf-rm.github.io.
翻訳日:2024-07-12 21:58:43 公開日:2024-07-11
# バラーズのデルタは中世中国の詩文でどのように機能するのか?

How does Burrows' Delta work on medieval Chinese poetic texts? ( http://arxiv.org/abs/2407.08099v1 )

ライセンス: Link先を確認
Boris Orekhov, (参考訳) Burrows' Deltaは2002年に導入され、著者帰属のための効果的なツールであることが証明されている。 これらは異なる言語であるにもかかわらず、それらは主に同じ文法型に属し、同じ図形原理を使って文章で話す:空間を用いて単語を分離する音素アルファベットである。 この記事では、この帰属メソッドが、異なる文法構造を持つ言語におけるテキストと、異なる原理に基づくスクリプトでいかにうまく機能するか、ということに対処したいと思います。 デルタ法が中国語のテキストに与える影響を分析する研究は、ヨーロッパ語のテキストよりも少ない。 罪学者からのデルタへのこのような低い関心は、中世中国の詩に捧げられた科学分野の構造が原因だと私は信じている。 テキスト間距離に基づくクラスタリングは完璧に動作した。 デルタは、クラスタリングによって、ある著者のサンプルが互いに最もよく似ていることを示し、デルタは異なる詩人を混乱させることはなかった。 従来の手法を使わずにデルタ法を適さない言語に適用したにもかかわらず、この手法の有効性を実証した。 唐代の詩人はデルタで正しく識別され、ヨーロッパ標準語で書かれた著者の実証的なパターンが再び確認されている。

Burrows' Delta was introduced in 2002 and has proven to be an effective tool for author attribution. Despite the fact that these are different languages, they mostly belong to the same grammatical type and use the same graphic principle to convey speech in writing: a phonemic alphabet with word separation using spaces. The question I want to address in this article is how well this attribution method works with texts in a language with a different grammatical structure and a script based on different principles. There are fewer studies analyzing the effectiveness of the Delta method on Chinese texts than on texts in European languages. I believe that such a low level of attention to Delta from sinologists is due to the structure of the scientific field dedicated to medieval Chinese poetry. Clustering based on intertextual distances worked flawlessly. Delta produced results where clustering showed that the samples of one author were most similar to each other, and Delta never confused different poets. Despite the fact that I used an unconventional approach and applied the Delta method to a language poorly suited for it, the method demonstrated its effectiveness. Tang dynasty poets are correctly identified using Delta, and the empirical pattern observed for authors writing in European standard languages has been confirmed once again.
翻訳日:2024-07-12 19:18:18 公開日:2024-07-11
# 非収束学習率に対するAdamおよび他の適応確率勾配勾配最適化手法の非収束性

Non-convergence of Adam and other adaptive stochastic gradient descent optimization methods for non-vanishing learning rates ( http://arxiv.org/abs/2407.08100v1 )

ライセンス: Link先を確認
Steffen Dereich, Robin Graeber, Arnulf Jentzen, (参考訳) ディープラーニングアルゴリズム - 確率勾配降下法(SGD)最適化法によって訓練されたディープニューラルネットワークのクラス - は、今日では多くの人工知能(AI)システムにおいて重要な要素であり、現代の社会における私たちの働き方や生活様式に革命をもたらした。 例えば、SGD法はChatGPTやGeminiなどの強力な大規模言語モデル(LLM)のトレーニングに使用されるが、SGD法はMidjourney、DALL-E、Stable DiffusionといったAIベースのテキスト・ツー・イメージ生成モデルの成功に使用される。 通常のバニラ標準SGD法は、学習率がゼロから外れている場合、複数の凸最適化問題の状況でも収束しないことが知られている。 しかし、多くの実践的な訓練シナリオでは、通常のバニラ標準SGD法ではなく、RMSpropやAdamOptimatorなどの適応SGD法が採用されている。 このような適応型オプティマイザは、トレーニングプロセス中に学習率が適応的に修正されるかどうかという疑問が自然に浮き彫りになる。 本研究では、学習率が0から漸近的に有界である場合、人気のあるアダムオプティマイザのような適応的なSGD手法が任意のランダムな極限点に収束しないことを証明して、この疑問に否定的に答える。 この非収束結果の証明では、独立な関心を持つ加速および適応的なSGD手法のクラスに対して、適切なパスワイズ境界を定めている。

Deep learning algorithms - typically consisting of a class of deep neural networks trained by a stochastic gradient descent (SGD) optimization method - are nowadays the key ingredients in many artificial intelligence (AI) systems and have revolutionized our ways of working and living in modern societies. For example, SGD methods are used to train powerful large language models (LLMs) such as versions of ChatGPT and Gemini, SGD methods are employed to create successful generative AI based text-to-image creation models such as Midjourney, DALL-E, and Stable Diffusion, but SGD methods are also used to train DNNs to approximately solve scientific models such as partial differential equation (PDE) models from physics and biology and optimal control and stopping problems from engineering. It is known that the plain vanilla standard SGD method fails to converge even in the situation of several convex optimization problems if the learning rates are bounded away from zero. However, in many practical relevant training scenarios, often not the plain vanilla standard SGD method but instead adaptive SGD methods such as the RMSprop and the Adam optimizers, in which the learning rates are modified adaptively during the training process, are employed. This naturally rises the question whether such adaptive optimizers, in which the learning rates are modified adaptively during the training process, do converge in the situation of non-vanishing learning rates. In this work we answer this question negatively by proving that adaptive SGD methods such as the popular Adam optimizer fail to converge to any possible random limit point if the learning rates are asymptotically bounded away from zero. In our proof of this non-convergence result we establish suitable pathwise a priori bounds for a class of accelerated and adaptive SGD methods, which are also of independent interest.
翻訳日:2024-07-12 19:18:18 公開日:2024-07-11
# 定位インタラクションテストベッドとしてのライブフィットネスコーチング

Live Fitness Coaching as a Testbed for Situated Interaction ( http://arxiv.org/abs/2407.08101v1 )

ライセンス: Link先を確認
Sunny Panchal, Apratim Bhattacharyya, Guillaume Berger, Antoine Mercier, Cornelius Bohm, Florian Dietrichkeit, Reza Pourreza, Xuanlin Li, Pulkit Madan, Mingu Lee, Mark Todorovich, Ingo Bax, Roland Memisevic, (参考訳) 視覚と言語を交わすタスクは、対話型アシスタントのような視覚言語モデルの能力向上に大きな影響を与えた。 しかし、既存のタスクで訓練されたモデルはターンベースのインタラクションに限られており、各ターンはユーザーによってステップ(即ちトリガー)されなければならない。 AIモデルがリアルタイムに展開する状況に基づいて、タイムリーな応答やフィードバックを積極的に提供するような、オープンエンドの非同期インタラクションは、オープンな課題である。 本研究では,QEVDベンチマークとデータセットを提示する。このベンチマークは,現実のフィットネスコーチングの課題に対して,人間とAIのインタラクションを探索するものだ。 複雑な人間の行動を認識し、それらの行動に根ざした誤りを特定し、適切なフィードバックを提供するために補助的な視覚言語モデルを必要とする最初のベンチマークである。 我々の実験は、そのような非同期位置相互作用に対する既存の最先端の視覚言語モデルの限界を明らかにする。 そこで本研究では,適切なタイミングで適切なフィードバックで人間の行動に非同期に応答できる,シンプルなエンドツーエンドストリーミングベースラインを提案する。

Tasks at the intersection of vision and language have had a profound impact in advancing the capabilities of vision-language models such as dialog-based assistants. However, models trained on existing tasks are largely limited to turn-based interactions, where each turn must be stepped (i.e., prompted) by the user. Open-ended, asynchronous interactions where an AI model may proactively deliver timely responses or feedback based on the unfolding situation in real-time are an open challenge. In this work, we present the QEVD benchmark and dataset which explores human-AI interaction in the challenging, yet controlled, real-world domain of fitness coaching - a task which intrinsically requires monitoring live user activity and providing timely feedback. It is the first benchmark that requires assistive vision-language models to recognize complex human actions, identify mistakes grounded in those actions, and provide appropriate feedback. Our experiments reveal the limitations of existing state of the art vision-language models for such asynchronous situated interactions. Motivated by this, we propose a simple end-to-end streaming baseline that can respond asynchronously to human actions with appropriate feedbacks at the appropriate time.
翻訳日:2024-07-12 19:18:18 公開日:2024-07-11
# コンピュータ科学におけるジェンダーバイアスのダイナミクス

Dynamics of Gender Bias within Computer Science ( http://arxiv.org/abs/2407.08102v1 )

ライセンス: Link先を確認
Thomas J. Misa, (参考訳) 新しいデータセット (N = 7,456) は、コンピュータ科学のプロキシである13の特別関心グループ (SIG) を創設するアソシエーション・フォー・コンピューティング・マシンズ(英語版)において、女性の研究の著者数を分析する。 ACM SIGは1970年から2000年にかけて拡大し、それぞれが女性作家を増やした。 しかし、多様性は多い。 いくつかのSIGには10%未満の女性作家がおり、SIGUCCS (University Computing Center) は40%を超えた。 3つのSIGは女性作家の成長を加速させ、ACMを含むほとんどが成長を加速させた。 この研究は、しばしば一般教育や労働要因(「コンピュータ科学」の実体全体)に焦点をあてて、女性の参加の変化を形作るコンピュータ科学の過小評価されたダイナミクスを調べることで、改革の努力を促進する可能性がある。

A new dataset (N = 7,456) analyzes women's research authorship in the Association for Computing Machinery's founding 13 Special Interest Groups or SIGs, a proxy for computer science. ACM SIGs expanded during 1970-2000; each experienced increasing women's authorship. But diversity abounds. Several SIGs had fewer than 10% women authors while SIGUCCS (university computing centers) exceeded 40%. Three SIGs experienced accelerating growth in women's authorship; most, including a composite ACM, had decelerating growth. This research may encourage reform efforts, often focusing on general education or workforce factors (across the entity of "computer science"), to examine under-studied dynamics within computer science that shaped changes in women's participation.
翻訳日:2024-07-12 19:18:18 公開日:2024-07-11
# 言語モデル復号化のためのオートマタによる制約

Automata-based constraints for language model decoding ( http://arxiv.org/abs/2407.08103v1 )

ライセンス: Link先を確認
Terry Koo, Frederick Liu, Luheng He, (参考訳) 例えば、構造化データ、API呼び出し、コードスニペットなどである。 LMは形式構文への適合性を改善するために調整できるが、特に大規模展開に適した小型のLMでは適合性は保証されない。 加えて、チューニングにはかなりのリソースが必要であるため、一般的でないフォーマットやタスク固有のフォーマットでは実用的ではない。 下流のパースエラーを防ぐためには、LMが有効な出力のみを生成することを理想的に制限するが、これはトークン化によって非常に複雑になる。 APIコールやスキーマ誘導JSON,YAMLなど,多くの実用的なアプリケーションを備えた多種多様な形式言語である,正規言語に対する効率的なクローズドフォームソリューションを導出する,オートマトン理論の適用により,これらの問題を解決する。 また,高分岐係数問題に対処するための実用的拡張についても論じる。 最後に、我々の手法を決定論的文脈自由言語に拡張し、同様に効率的な閉形式解を許容する。 その柔軟性と代表的能力にもかかわらず、我々のアプローチでは、トークンごとの復号化ロジットへのアクセスしか必要とせず、LMサイズに依存しない単純な計算に抑えられるため、ほぼ全てのLMアーキテクチャに効率よく簡単に適用できる。

LMs are often expected to generate strings in some formal language; for example, structured data, API calls, or code snippets. Although LMs can be tuned to improve their adherence to formal syntax, this does not guarantee conformance, especially with smaller LMs suitable for large-scale deployment. In addition, tuning requires significant resources, making it impractical for uncommon or task-specific formats. To prevent downstream parsing errors we would ideally constrain the LM to only produce valid output, but this is severely complicated by tokenization, which is typically both ambiguous and misaligned with the formal grammar. We solve these issues through the application of automata theory, deriving an efficient closed-form solution for the regular languages, a broad class of formal languages with many practical applications, including API calls or schema-guided JSON and YAML. We also discuss pragmatic extensions for coping with the issue of high branching factor. Finally, we extend our techniques to deterministic context-free languages, which similarly admit an efficient closed-form solution. In spite of its flexibility and representative power, our approach only requires access to per-token decoding logits and lowers into simple calculations that are independent of LM size, making it both efficient and easy to apply to almost any LM architecture.
翻訳日:2024-07-12 19:18:18 公開日:2024-07-11
# 欧州連合におけるフェデレートラーニングとAI規制 : 責任とは何か? : 学際的分析

Federated Learning and AI Regulation in the European Union: Who is liable? An Interdisciplinary Analysis ( http://arxiv.org/abs/2407.08105v1 )

ライセンス: Link先を確認
Herbert Woisetschläger, Simon Mertel, Christoph Krönke, Ruben Mayer, Hans-Arno Jacobsen, (参考訳) 欧州連合人工知能法(EU)は、膨大な罰金を回避するため、機械学習アプリケーションの開発とデプロイにおけるステークホルダーの明確な責任を委任し、その起源にあるデータによるプライベートでセキュアなデータ処理を優先する。 フェデレートラーニング(FL)は、データサイロを越えた生成AIモデルのトレーニングを可能にし、データセキュリティを改善しながらモデルパラメータのみを共有する。 FLは協調学習パラダイムであるため、クライアントとサーバはFLパイプラインにおける法的責任を自然に共有する。 我々の仕事は、双方の役割を明確にし、責任をサーバオペレータに移すための戦略を説明し、EU AI法の下でFLの実践的適用性を改善するために解決しなければならない、オープンな技術的課題を指摘している。

The European Union Artificial Intelligence Act mandates clear stakeholder responsibilities in developing and deploying machine learning applications to avoid substantial fines, prioritizing private and secure data processing with data remaining at its origin. Federated Learning (FL) enables the training of generative AI Models across data siloes, sharing only model parameters while improving data security. Since FL is a cooperative learning paradigm, clients and servers naturally share legal responsibility in the FL pipeline. Our work contributes to clarifying the roles of both parties, explains strategies for shifting responsibilities to the server operator, and points out open technical challenges that we must solve to improve FL's practical applicability under the EU AI Act.
翻訳日:2024-07-12 19:18:18 公開日:2024-07-11
# 患者アウトカム改善のための早期・高精度セプシス予測のための高度なメタアンサンブル機械学習モデル

Advanced Meta-Ensemble Machine Learning Models for Early and Accurate Sepsis Prediction to Improve Patient Outcomes ( http://arxiv.org/abs/2407.08107v1 )

ライセンス: Link先を確認
MohammadAmin Ansari Khoushabar, Parviz Ghafariasl, (参考訳) セプシスは、感染に対する身体の反応から重篤な状態であり、すべての年齢層に影響を及ぼす世界的な健康危機を引き起こしている。 タイムリーな検出と介入は、医療費の削減と患者の成果改善に不可欠である。 本稿では, 全身性炎症性反応症候群, 修正早期警戒スコア, クイックシークエンシャル臓器不全評価など, 従来の敗血症スクリーニングツールの限界について検討し, 高度なアプローチの必要性を強調した。 本稿では,機械学習技術 - ランダムフォレスト, エクストリームグラディエントブースティング, 決定木モデル - を用いて, セプシスの発症を予測することを提案する。 本研究は,これらのモデルについて,精度,精度,リコール,F1スコア,受信器動作特性曲線の下での領域といった重要な指標を用いて,個別かつ組み合わせたメタアンサンブルアプローチで評価する。 その結果、メタアンサンブルモデルは個々のモデルよりも優れており、AUC-ROCスコアは0.96であり、早期敗血症検出の予測精度が優れていることが示された。 ランダムフォレストモデルではAUC-ROCスコアが0.95、エクストリームグラディエントブースティングと決定木モデルでは0.94と0.90がそれぞれ良好に動作する。

Sepsis, a critical condition from the body's response to infection, poses a major global health crisis affecting all age groups. Timely detection and intervention are crucial for reducing healthcare expenses and improving patient outcomes. This paper examines the limitations of traditional sepsis screening tools like Systemic Inflammatory Response Syndrome, Modified Early Warning Score, and Quick Sequential Organ Failure Assessment, highlighting the need for advanced approaches. We propose using machine learning techniques - Random Forest, Extreme Gradient Boosting, and Decision Tree models - to predict sepsis onset. Our study evaluates these models individually and in a combined meta-ensemble approach using key metrics such as Accuracy, Precision, Recall, F1 score, and Area Under the Receiver Operating Characteristic Curve. Results show that the meta-ensemble model outperforms individual models, achieving an AUC-ROC score of 0.96, indicating superior predictive accuracy for early sepsis detection. The Random Forest model also performs well with an AUC-ROC score of 0.95, while Extreme Gradient Boosting and Decision Tree models score 0.94 and 0.90, respectively.
翻訳日:2024-07-12 19:18:18 公開日:2024-07-11
# CADC:レコメンデーションモデルトレーニングデータ圧縮のためのユーザ-アイテムインタラクションの符号化

CADC: Encoding User-Item Interactions for Compressing Recommendation Model Training Data ( http://arxiv.org/abs/2407.08108v1 )

ライセンス: Link先を確認
Hossein Entezari Zarch, Abdulla Alshabanah, Chaoyi Jiang, Murali Annavaram, (参考訳) ディープラーニングレコメンデーションモデル(DLRM)は、現在のeコマース産業の中心にある。 しかし、これらの大規模モデルのトレーニングに使用されるトレーニングデータの量は指数関数的に増加しており、実質的なトレーニングハードルに繋がる。 トレーニングデータセットには、コンテンツベース情報(ユーザとアイテムの機能)とコラボレーティブ情報(ユーザとアイテム間のインタラクション)の2つの主要なタイプが含まれている。 トレーニングデータセットを減らす1つのアプローチは、ユーザとイテムのインタラクションを削除することだ。 しかし、それは協調情報を著しく減らし、それは相互作用履歴が組み込まれているため、正確性を維持するために不可欠である。 この損失はDLRMの性能に大きな影響を及ぼす。 本論文は,ユーザとユーザ間のインタラクション履歴をキャプチャしてユーザとアイテムの埋め込みを豊かにすることができれば,モデル精度を損なうことなく,インタラクション履歴を圧縮できることを示す。 このように、この作業であるCADC(Collaborative Aware Data Compression)は、データセット圧縮のトレーニングに2段階のアプローチを取る。 最初のステップでは、ユーザとアイテムの両方に新しい埋め込み表現を作成するために、ユーザ-itemインタラクションマトリックスの行列係数化を使用します。 ユーザとアイテムの埋め込みがインタラクション履歴情報によってリッチになると、トレーニングデータセットの均一なランダムサンプリングを適用して、モデルの精度低下を最小化しながら、トレーニングデータセットのサイズを大幅に削減する。 CADCのソースコードは \href{https://anonymous.4open.science/r/DSS-RM-8C1D/README.md}{https://anonymous.4open.science/r/DSS-RM-8C1D/README.md} で公開されている。

Deep learning recommendation models (DLRMs) are at the heart of the current e-commerce industry. However, the amount of training data used to train these large models is growing exponentially, leading to substantial training hurdles. The training dataset contains two primary types of information: content-based information (features of users and items) and collaborative information (interactions between users and items). One approach to reduce the training dataset is to remove user-item interactions. But that significantly diminishes collaborative information, which is crucial for maintaining accuracy due to its inclusion of interaction histories. This loss profoundly impacts DLRM performance. This paper makes an important observation that if one can capture the user-item interaction history to enrich the user and item embeddings, then the interaction history can be compressed without losing model accuracy. Thus, this work, Collaborative Aware Data Compression (CADC), takes a two-step approach to training dataset compression. In the first step, we use matrix factorization of the user-item interaction matrix to create a novel embedding representation for both the users and items. Once the user and item embeddings are enriched by the interaction history information the approach then applies uniform random sampling of the training dataset to drastically reduce the training dataset size while minimizing model accuracy drop. The source code of CADC is available at \href{https://anonymous.4open.science/r/DSS-RM-8C1D/README.md}{https://anonymous.4open.science/r/DSS-RM-8C1D/README.md}.
翻訳日:2024-07-12 19:18:18 公開日:2024-07-11
# 都市透かし検出 : ベンチマークと大規模モデル共適応器

Urban Waterlogging Detection: A Challenging Benchmark and Large-Small Model Co-Adapter ( http://arxiv.org/abs/2407.08109v1 )

ライセンス: Link先を確認
Suqi Song, Chenxu Zhang, Peng Zhang, Pengkun Li, Fenglong Song, Lei Zhang, (参考訳) 都市防水は公共の安全とインフラに大きなリスクをもたらす。 従来の水位センサーを用いた方法は、完全なカバレッジを達成できないために、高い保守性を必要とする。 近年の進歩では、監視カメラ画像とディープラーニングによる検出が採用されているが、データ不足と環境条件の悪化に苦戦している。 本稿では,様々な悪条件下でUW-Bench(Urban Waterlogging Benchmark)を立案し,現実の応用を推し進める。 本稿では,大規模モデルの実質的なセグメンテーションポテンシャルと,小型モデルのタスク指向ガイダンスを利用する大小モデルコアダプターパラダイム(LSM-adapter)を提案する。 具体的には、Dynamic Prompt Combinerと一緒にTriple-S Prompt Adapterモジュールを提案し、マスクデコーダ適応のために複数のプロンプトをマージする。 一方、ヒストグラム等化Adap-terモジュールは、画像エンコーダ適応のための画像固有情報を注入するように設計されている。 結果と分析は,開発したベンチマークとアルゴリズムの課題と優位性を示している。 プロジェクトページ: \url{https://github.com/zhang-chenxu/LSM-Adapter}

Urban waterlogging poses a major risk to public safety and infrastructure. Conventional methods using water-level sensors need high-maintenance to hardly achieve full coverage. Recent advances employ surveillance camera imagery and deep learning for detection, yet these struggle amidst scarce data and adverse environmental conditions. In this paper, we establish a challenging Urban Waterlogging Benchmark (UW-Bench) under diverse adverse conditions to advance real-world applications. We propose a Large-Small Model co-adapter paradigm (LSM-adapter), which harnesses the substantial generic segmentation potential of large model and the specific task-directed guidance of small model. Specifically, a Triple-S Prompt Adapter module alongside a Dynamic Prompt Combiner are proposed to generate then merge multiple prompts for mask decoder adaptation. Meanwhile, a Histogram Equalization Adap-ter module is designed to infuse the image specific information for image encoder adaptation. Results and analysis show the challenge and superiority of our developed benchmark and algorithm. Project page: \url{https://github.com/zhang-chenxu/LSM-Adapter}
翻訳日:2024-07-12 19:18:18 公開日:2024-07-11
# 長周期モデルの長周期モデルにどの程度の効果があるか : 経時的変化の経時的変化と経時的変化の比較

How Well Can a Long Sequence Model Model Long Sequences? Comparing Architechtural Inductive Biases on Long-Context Abilities ( http://arxiv.org/abs/2407.08112v1 )

ライセンス: Link先を確認
Jerry Huang, (参考訳) 実世界のシナリオでは長いシーケンスが豊富に存在するため、適切にモデル化することで、多数のダウンストリームユースケースが開きます。 しかし、ディープニューラルネットワークは、様々な理由から、これらの問題に悩まされていることが多い。 システム工学とモデル設計の両方における最近の進歩は、拡張コンテキスト長をサポートするために提供されたモデルのスケールアップを可能にした。 特に、仮説的にモデルの状態空間および線形リカレントニューラルネットワークファミリーは無限列レンズに収束することができる。 しかし、これはあまりにも良いことですか? このような主張が理論的に健全であるにもかかわらず、実証的に観察される大きな実践的ギャップが残っていることを示すために評価を行う。 特に、リカレントモデルは長いコンテキストのLLMと同じ設定で注意を払っている。 さらに、異なる帰納的バイアスには矛盾する外挿能力があることを示し、そのようなパラダイムをさらに研究する必要性を強調し、長期コンテキストモデルが期待通りに振る舞うことができないように見える理由を調査する。

Long sequences occur in abundance within real-world scenarios, hence properly modelling them opens numerous down-stream use-cases. Deep neural networks, however, have often struggled with these for a variety of reasons. Recent advances, both in system engineering as well as model design, have enabled the scaling up of model that are purported to support extended context length. In particular, the state-space and linear recurrent neural network families of models hypothetically can entend to infinite sequence lenth. However, is this too good to be true? We conduct an evaluation to show that while such claims may be sound theoretically, there remain large practical gaps that are empirically observed. In particular, recurrent models still suffer in the same settings as long-context LLMs with attention. We further show that different inductive biases have inconsistent extrapolation capabilities, highlighting the need to further study such paradigms and investigate why long-context models seemingly fail to behave as one might expect.
翻訳日:2024-07-12 19:18:18 公開日:2024-07-11
# FYI:データセットの蒸留のために画像をフリップする

FYI: Flip Your Images for Dataset Distillation ( http://arxiv.org/abs/2407.08113v1 )

ライセンス: Link先を確認
Byunggwan Son, Youngmin Oh, Donghyeon Baek, Bumsub Ham, (参考訳) データセット蒸留は、大規模な実データセットから少量の画像を合成し、合成された画像と実画像は、トレーニングプロセス中に同様の挙動特性(例えば勾配や特徴の分布)を共有する。 本論文では, 現状の方法と実データセットの広範な分析を通じて, 実験的な観察とともに, データセット蒸留において共有すべき2つの重要な事項について述べる。 まず、実際の画像の片側に現れる物体は、データセット内の別の画像の反対側に現れる可能性が高い。 第二に、両側同値性は、画像の左右両側の物体の重複識別部分に合成画像を強制し、物体間の微妙な差異の認識を制限する。 この問題に対処するために,FYIと呼ばれるデータセット蒸留の驚くほどシンプルで効果的な手法を導入し,実画像のリッチなセマンティクスを合成画像に蒸留する。 この目的のために、FYIは水平反転法を蒸留プロセスに組み込み、物体のさらなる詳細を捉えながら、双方の等価性の影響を緩和する。 CIFAR-10/100、Tiny-ImageNet、ImageNetの実験では、FYIはトレーニング目標やネットワークアーキテクチャを変更することなく、いくつかの最先端メソッドにシームレスに統合でき、性能が著しく向上することを示した。

Dataset distillation synthesizes a small set of images from a large-scale real dataset such that synthetic and real images share similar behavioral properties (e.g, distributions of gradients or features) during a training process. Through extensive analyses on current methods and real datasets, together with empirical observations, we provide in this paper two important things to share for dataset distillation. First, object parts that appear on one side of a real image are highly likely to appear on the opposite side of another image within a dataset, which we call the bilateral equivalence. Second, the bilateral equivalence enforces synthetic images to duplicate discriminative parts of objects on both the left and right sides of the images, limiting the recognition of subtle differences between objects. To address this problem, we introduce a surprisingly simple yet effective technique for dataset distillation, dubbed FYI, that enables distilling rich semantics of real images into synthetic ones. To this end, FYI embeds a horizontal flipping technique into distillation processes, mitigating the influence of the bilateral equivalence, while capturing more details of objects. Experiments on CIFAR-10/100, Tiny-ImageNet, and ImageNet demonstrate that FYI can be seamlessly integrated into several state-of-the-art methods, without modifying training objectives and network architectures, and it improves the performance remarkably.
翻訳日:2024-07-12 19:18:18 公開日:2024-07-11
# 歯科診断の改善:空間的注意機構による畳み込みの促進

Improving Dental Diagnostics: Enhanced Convolution with Spatial Attention Mechanism ( http://arxiv.org/abs/2407.08114v1 )

ライセンス: Link先を確認
Shahriar Rezaie, Neda Saberitabar, Elnaz Salehi, (参考訳) 深層学習は医療の変革的ツールとして登場し、複雑な画像データを分析することによって歯科診断の大幅な進歩を提供している。 本稿では,SimAMアテンションモジュールと統合されたResNet50アーキテクチャを改良し,歯科画像における限られたコントラストの課題に対処し,計算要求を緩和しつつディープラーニング性能を最適化する。 第2のResNetブロックの後に組み込まれたSimAMモジュールは、空間的依存関係をキャプチャし、重要な機能を強化することで特徴抽出を洗練する。 本モデルは,F1スコア0.676を達成し,VGG,EfficientNet,DenseNet,AlexNetといった従来のアーキテクチャよりも優れた性能を示す。 本研究は, 歯科画像解析における分類精度とロバスト性の向上に対するアプローチの有効性を強調し, 深層学習の可能性を強調し, 歯科医療における診断精度と効率性を高めることを目的とした。 私たちのような先進的なAIモデルの統合は、歯科診断に革命をもたらす可能性がある。

Deep learning has emerged as a transformative tool in healthcare, offering significant advancements in dental diagnostics by analyzing complex imaging data. This paper presents an enhanced ResNet50 architecture, integrated with the SimAM attention module, to address the challenge of limited contrast in dental images and optimize deep learning performance while mitigating computational demands. The SimAM module, incorporated after the second ResNet block, refines feature extraction by capturing spatial dependencies and enhancing significant features. Our model demonstrates superior performance across various feature extraction techniques, achieving an F1 score of 0.676 and outperforming traditional architectures such as VGG, EfficientNet, DenseNet, and AlexNet. This study highlights the effectiveness of our approach in improving classification accuracy and robustness in dental image analysis, underscoring the potential of deep learning to enhance diagnostic accuracy and efficiency in dental care. The integration of advanced AI models like ours is poised to revolutionize dental diagnostics, contributing to better patient outcomes and the broader adoption of AI in dentistry.
翻訳日:2024-07-12 19:18:18 公開日:2024-07-11
# Twitterのリアルタイム要約

Real-Time Summarization of Twitter ( http://arxiv.org/abs/2407.08125v1 )

ライセンス: Link先を確認
Yixin Jin, Meiqi Wang, Meng Li, Wenjing Zhou, Yi Shen, Hao Liu, (参考訳) 本稿では,Twitter のリアルタイム要約における TREC のアプローチについて述べる。 我々は、リアルタイムプッシュ通知のシナリオに焦点を当て、システムはサンプルツイートのストリームを監視し、関連するツイートと新規なツイートを、特定の興味のあるプロフィールに返却する。 ダイリクレスコア(ダイリクレスコア)は、非常にスムーズな(ベースライン)で、あるツイートが特定の関心プロファイルに関連するかどうかを分類するために使用される。 平均利得(MAP),累積利得(CG),ディスカウント累積利得(DCG)などの指標を用いて,本手法が良好な性能を示すことを示す。 また、プッシュキューから冗長なツイートを削除することも望まれる。 精度の限界のため,本論文ではアルゴリズムについてのみ記述する。

In this paper, we describe our approaches to TREC Real-Time Summarization of Twitter. We focus on real time push notification scenario, which requires a system monitors the stream of sampled tweets and returns the tweets relevant and novel to given interest profiles. Dirichlet score with and with very little smoothing (baseline) are employed to classify whether a tweet is relevant to a given interest profile. Using metrics including Mean Average Precision (MAP, cumulative gain (CG) and discount cumulative gain (DCG), the experiment indicates that our approach has a good performance. It is also desired to remove the redundant tweets from the pushing queue. Due to the precision limit, we only describe the algorithm in this paper.
翻訳日:2024-07-12 19:18:18 公開日:2024-07-11
# オーディオ・ビジュアル・ビデオ・パーシングのためのラベル予測イベント・ディスタングル

Label-anticipated Event Disentanglement for Audio-Visual Video Parsing ( http://arxiv.org/abs/2407.08126v1 )

ライセンス: Link先を確認
Jinxing Zhou, Dan Guo, Yuxin Mao, Yiran Zhong, Xiaojun Chang, Meng Wang, (参考訳) AVVP(Audio-Visual Video Parsing)タスクは、音声と視覚のモダリティ内の事象を検出し、時間的に見つけることを目的としている。 複数のイベントがタイムラインで重複し、識別が難しい。 従来の手法では、より効果的な機能を組み込むために初期のオーディオ視覚エンコーダの改善に重点を置いているが、最終的なイベント分類に不可欠なデコードフェーズは、あまり注目されないことが多い。 我々は,復号化の段階を進み,解釈可能性を向上させることを目指している。 具体的には,新たなデコードパラダイムである \underline{l}abel s\underline{e}m\underline{a}ntic-based \underline{p}rojection (LEAP) を導入し,音声/視覚セグメントの符号化された潜時的特徴を意味的に独立なラベル埋め込みに反復的に投影する。 このプロセスは、クロスモーダル(オーディオ/ヴィジュアル-ラベル)相互作用をモデル化することによって強化され、徐々にビデオセグメント内のイベントセマンティクスを分解して関連するラベルの埋め込みを洗練し、より差別的で解釈可能な復号プロセスを保証する。 LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。 この関数は、音声と視覚のイベントの連合(EIoU)のインターセクションを利用して、特徴レベルでのオーディオと視覚の類似性を校正し、様々なイベント密度をモダリティにわたって調節する。 広汎な実験により,本手法の優位性を実証し,AVVPの新たな最先端性能を実現し,関連する音声・視覚イベントのローカライゼーションタスクを強化した。

Audio-Visual Video Parsing (AVVP) task aims to detect and temporally locate events within audio and visual modalities. Multiple events can overlap in the timeline, making identification challenging. While traditional methods usually focus on improving the early audio-visual encoders to embed more effective features, the decoding phase -- crucial for final event classification, often receives less attention. We aim to advance the decoding phase and improve its interpretability. Specifically, we introduce a new decoding paradigm, \underline{l}abel s\underline{e}m\underline{a}ntic-based \underline{p}rojection (LEAP), that employs labels texts of event categories, each bearing distinct and explicit semantics, for parsing potentially overlapping events.LEAP works by iteratively projecting encoded latent features of audio/visual segments onto semantically independent label embeddings. This process, enriched by modeling cross-modal (audio/visual-label) interactions, gradually disentangles event semantics within video segments to refine relevant label embeddings, guaranteeing a more discriminative and interpretable decoding process. To facilitate the LEAP paradigm, we propose a semantic-aware optimization strategy, which includes a novel audio-visual semantic similarity loss function. This function leverages the Intersection over Union of audio and visual events (EIoU) as a novel metric to calibrate audio-visual similarities at the feature level, accommodating the varied event densities across modalities. Extensive experiments demonstrate the superiority of our method, achieving new state-of-the-art performance for AVVP and also enhancing the relevant audio-visual event localization task.
翻訳日:2024-07-12 19:18:18 公開日:2024-07-11
# 顔の予測:予測アライメントによるブラックボックスモデルインバージョン

Prediction Exposes Your Face: Black-box Model Inversion via Prediction Alignment ( http://arxiv.org/abs/2407.08127v1 )

ライセンス: Link先を確認
Yufan Liu, Wanqian Zhang, Dayan Wu, Zheng Lin, Jingzi Gu, Weiping Wang, (参考訳) モデル反転(MI)攻撃は、その出力からターゲットモデルのプライベートトレーニングデータを再構築し、ディープラーニングモデルとデータプライバシに重大な脅威をもたらす。 一方、既存のMIメソッドのほとんどは、ターゲットのアイデンティティを表現するために潜在コードを探すことに重点を置いているが、この反復最適化ベースのスキームはターゲットモデルに対する膨大なクエリを消費し、特にブラックボックスシナリオでは非現実的である。 一方、トレーニングベースの手法では、1つのフォワード推論を通じて攻撃を起動するが、予測ベクトルからイメージへの高レベルマッピングを直接学習することはできなかった。 これらの制約に対処し、ブラックボックスMI攻撃のための新しい予測画像(P2I)手法を提案する。 具体的には、予測アライメントエンコーダを導入し、ターゲットモデルの出力予測をStyleGANの潜在コードにマッピングする。 このように、予測ベクトル空間はより不整合な潜在空間と整合し、予測ベクトルと意味的な顔の特徴との接続を確立することができる。 攻撃の段階では、アラインド・アンサンブル・アスキームを設計し、ターゲットアイデンティティの相補的な顔属性を統合して、より良い再構築を行う。 実験の結果,RLB-MIとの比較により,本手法は他のSOTA,例えばRLB-MIよりも高い精度で攻撃精度が8.5%向上し,データセットCelebAではクエリ数が99%向上した。

Model inversion (MI) attack reconstructs the private training data of a target model given its output, posing a significant threat to deep learning models and data privacy. On one hand, most of existing MI methods focus on searching for latent codes to represent the target identity, yet this iterative optimization-based scheme consumes a huge number of queries to the target model, making it unrealistic especially in black-box scenario. On the other hand, some training-based methods launch an attack through a single forward inference, whereas failing to directly learn high-level mappings from prediction vectors to images. Addressing these limitations, we propose a novel Prediction-to-Image (P2I) method for black-box MI attack. Specifically, we introduce the Prediction Alignment Encoder to map the target model's output prediction into the latent code of StyleGAN. In this way, prediction vector space can be well aligned with the more disentangled latent space, thus establishing a connection between prediction vectors and the semantic facial features. During the attack phase, we further design the Aligned Ensemble Attack scheme to integrate complementary facial attributes of target identity for better reconstruction. Experimental results show that our method outperforms other SOTAs, e.g.,compared with RLB-MI, our method improves attack accuracy by 8.5% and reduces query numbers by 99% on dataset CelebA.
翻訳日:2024-07-12 19:18:18 公開日:2024-07-11
# 視覚ゼロショット学習のためのスパイクタッカーフュージョン変換器

Spiking Tucker Fusion Transformer for Audio-Visual Zero-Shot Learning ( http://arxiv.org/abs/2407.08130v1 )

ライセンス: Link先を確認
Wenrui Li, Penghong Wang, Ruiqin Xiong, Xiaopeng Fan, (参考訳) 時間的シーケンスを効率的にエンコードするスパイクニューラルネットワーク(SNN)は、音声と視覚の関節の特徴表現を抽出する大きな可能性を示している。 しかしながら、SNN(バイナリスパイクシーケンス)とトランスフォーマー(フロートポイントシーケンス)を結合して、現在直面している時間-意味情報を共同で探索する。 本稿では,音声ビジョンゼロショット学習(ZSL)のためのスポーキング・タッカー・フュージョン・トランスフォーマ(STFT)について紹介する。 STFTは、異なる時間ステップからの時間的および意味的な情報を活用して、堅牢な表現を生成する。 時間ステップ因子(TSF)を導入し、その後の推論情報を動的に合成する。 入力膜電位の形成を誘導し,スパイクノイズを低減するため,最大および平均プール操作を組み合わせたグローバル局所プール(GLP)を提案する。 さらに、スパイキングニューロンの閾値は、意味的および時間的手がかりに基づいて動的に調整される。 SNNとTransformerによって抽出された時間的・意味的な情報を統合することは、単純双線形モデルにおけるパラメータの増大により困難である。 そこで本稿では,SNNとTransformerのマルチスケールの融合を実現するとともに,完全な2次相互作用を維持した時空間タッカー融合モジュールを提案する。 実験の結果,提案手法が3つのベンチマークデータセットにおける最先端性能を実現するための有効性を示した。 VGGSound、UCF101、ActivityNetのハーモニック平均(HM)改善率は、それぞれ15.4\%、3.9\%、14.9\%である。

The spiking neural networks (SNNs) that efficiently encode temporal sequences have shown great potential in extracting audio-visual joint feature representations. However, coupling SNNs (binary spike sequences) with transformers (float-point sequences) to jointly explore the temporal-semantic information still facing challenges. In this paper, we introduce a novel Spiking Tucker Fusion Transformer (STFT) for audio-visual zero-shot learning (ZSL). The STFT leverage the temporal and semantic information from different time steps to generate robust representations. The time-step factor (TSF) is introduced to dynamically synthesis the subsequent inference information. To guide the formation of input membrane potentials and reduce the spike noise, we propose a global-local pooling (GLP) which combines the max and average pooling operations. Furthermore, the thresholds of the spiking neurons are dynamically adjusted based on semantic and temporal cues. Integrating the temporal and semantic information extracted by SNNs and Transformers are difficult due to the increased number of parameters in a straightforward bilinear model. To address this, we introduce a temporal-semantic Tucker fusion module, which achieves multi-scale fusion of SNN and Transformer outputs while maintaining full second-order interactions. Our experimental results demonstrate the effectiveness of the proposed approach in achieving state-of-the-art performance in three benchmark datasets. The harmonic mean (HM) improvement of VGGSound, UCF101 and ActivityNet are around 15.4\%, 3.9\%, and 14.9\%, respectively.
翻訳日:2024-07-12 19:08:29 公開日:2024-07-11
# 非同期計測デバイス非依存量子デジタルシグネチャ

Asynchronous measurement-device-independent quantum digital signatures ( http://arxiv.org/abs/2407.08131v1 )

ライセンス: Link先を確認
Jing-Wei Bian, Bing-Hong Li, Yuan-Mei Xie, Hua-Lei Yin, Zeng-Bing Chen, (参考訳) 量子デジタルシグネチャ(QDS)は、鍵生成プロトコルによって量子状態を分散し、次に古典的なデータ処理によってメッセージに署名する。 しかし、QDSネットワークの実践的な実装には、複雑な干渉技術要件、量子状態伝達の線形チャネル損失、検出器に対する潜在的サイドチャネル攻撃など、多くの課題がある。 本稿では,非同期2光子干渉戦略とワンタイムユニバーサルハッシュ法を備えた,非同期計測デバイス非依存(MDI)QDSプロトコルを提案する。 2光子干渉法は, 検出側チャネル攻撃に対する我々のプロトコルを保護し, 実験実施の難しさを緩和する一方, 非同期戦略は, その平方根への等価チャネル損失を効果的に低減する。 従来のMDI-QDS方式と比較すると,マルチビットメッセージ処理における性能向上と伝送距離の倍増が見られた。 本研究は,量子ネットワークにおける非再検討による大規模データ処理を実現するための,効率的かつ実用的なMDI-QDS方式を提案する。

Quantum digital signatures (QDSs), which distribute and measure quantum states by key generation protocols and then sign messages via classical data processing, are a key area of interest in quantum cryptography. However, the practical implementation of a QDS network has many challenges, including complex interference technical requirements, linear channel loss of quantum state transmission, and potential side-channel attacks on detectors. Here, we propose an asynchronous measurement-device-independent (MDI) QDS protocol with asynchronous two-photon interference strategy and one-time universal hashing method. The two-photon interference approach protects our protocol against all detector side-channel attacks and relaxes the difficulty of experiment implementation, while the asynchronous strategy effectively reduces the equivalent channel loss to its square root. Compared to previous MDI-QDS schemes, our protocol shows several orders of magnitude performance improvements and doubling of transmission distance when processing multi-bit messages. Our findings present an efficient and practical MDI-QDS scheme, paving the way for large-scale data processing with non-repudiation in quantum networks.
翻訳日:2024-07-12 19:08:29 公開日:2024-07-11
# DMM:リモートセンシングにおけるオブジェクト指向物体検出のための分散誘導マルチスペクトルマンバ

DMM: Disparity-guided Multispectral Mamba for Oriented Object Detection in Remote Sensing ( http://arxiv.org/abs/2407.08132v1 )

ライセンス: Link先を確認
Minghang Zhou, Tianyu Li, Chaofan Qiao, Dongyu Xie, Guoqing Wang, Ningjuan Ruan, Lin Mei, Yang Yang, (参考訳) マルチスペクトル指向物体検出は、モーダル間およびモーダル内両方の相違により、課題に直面している。 近年の研究では、これらの問題に対処し、モーダル融合検出を実現するために、トランスフォーマーベースのモデルに頼っていることが多い。 しかし、変圧器の二次計算複雑性は性能を制限している。 長距離タスクにおけるMambaの効率性と複雑さの低下に着想を得て、Disparity-guided Multispectral Mamba (DMM)、Disparity-guided Cross-modal Fusion Mamba (DCFM)モジュール、MTAモジュール、TPA補助タスクからなるマルチスペクトル指向オブジェクト検出フレームワークを提案する。 DCFMモジュールは、モダリティ間の格差情報を利用して、RGBとIRイメージの機能を適応的にマージし、モダリティ間の衝突を緩和する。 MTAモジュールは、RGBモダリティ内の関連するターゲット領域に焦点を合わせ、モード内変動に対処することで、特徴表現を強化することを目的としている。 TPA補助タスクは、単一のモダルラベルを使用して、MTAモジュールの最適化をガイドし、ターゲットとそのローカルコンテキストにフォーカスすることを保証する。 DroneVehicleとVEDAIデータセットの大規模な実験により、計算効率を保ちながら最先端の手法より優れる手法の有効性が示された。 コードはhttps://github.com/Another-0/DMMで入手できる。

Multispectral oriented object detection faces challenges due to both inter-modal and intra-modal discrepancies. Recent studies often rely on transformer-based models to address these issues and achieve cross-modal fusion detection. However, the quadratic computational complexity of transformers limits their performance. Inspired by the efficiency and lower complexity of Mamba in long sequence tasks, we propose Disparity-guided Multispectral Mamba (DMM), a multispectral oriented object detection framework comprised of a Disparity-guided Cross-modal Fusion Mamba (DCFM) module, a Multi-scale Target-aware Attention (MTA) module, and a Target-Prior Aware (TPA) auxiliary task. The DCFM module leverages disparity information between modalities to adaptively merge features from RGB and IR images, mitigating inter-modal conflicts. The MTA module aims to enhance feature representation by focusing on relevant target regions within the RGB modality, addressing intra-modal variations. The TPA auxiliary task utilizes single-modal labels to guide the optimization of the MTA module, ensuring it focuses on targets and their local context. Extensive experiments on the DroneVehicle and VEDAI datasets demonstrate the effectiveness of our method, which outperforms state-of-the-art methods while maintaining computational efficiency. Code will be available at https://github.com/Another-0/DMM.
翻訳日:2024-07-12 19:08:29 公開日:2024-07-11
# 非言語的相互作用検出

Nonverbal Interaction Detection ( http://arxiv.org/abs/2407.08133v1 )

ライセンス: Link先を確認
Jianan Wei, Tianfei Zhou, Yi Yang, Wenguan Wang, (参考訳) この研究は、社会的文脈における人間の非言語的相互作用を理解するという新たな課題に対処する。 非言語信号は事実上すべてのコミュニケーション行為に及んでいる。 私たちのジェスチャー、表情、姿勢、視線、身体的外観でさえ、何も言わずにメッセージを伝える。 社会生活において重要な役割を担っているにもかかわらず、非言語的信号は言語的信号と比較して非常に注意を引いており、既存の解は通常、非言語的手がかりを独立して調べている。 本研究は,多面的非言語信号の解釈を強化するための最初の体系的な取り組みである。 まず,NVIと呼ばれる新しい大規模データセットについて述べる。このデータセットは,人間とそれに対応する社会集団の接頭辞と,5つの幅広い相互作用型に基づく22の原子レベルの非言語行動を含むように細心の注意を払って注釈付けされている。 第2に,非言語的インタラクション検出のための新しいタスクNVI-DETを構築し,画像から「個人的,グループ的,インタラクション」の形で三重項を識別する。 第3に,非言語相互作用検出ハイパーグラフ (NVI-DEHR) を提案する。 モデルの中心は2つのマルチスケールハイパーグラフであり、様々なスケールにわたる個人と個人、グループ、グループ間の相関に順応的に対処し、相互作用の特徴学習を容易にし、最終的には相互作用予測を改善する。 NVI-DEHRはNVI-DETにおいて様々な基線を著しく改善することを示した。 また、HOI-DETでの主要なパフォーマンスを示し、関連するタスクと強力な一般化能力をサポートするための汎用性を確認している。 われわれの研究が、非言語的なシグナルをより深く探求するための新たな道を提供することを期待している。

This work addresses a new challenge of understanding human nonverbal interaction in social contexts. Nonverbal signals pervade virtually every communicative act. Our gestures, facial expressions, postures, gaze, even physical appearance all convey messages, without anything being said. Despite their critical role in social life, nonverbal signals receive very limited attention as compared to the linguistic counterparts, and existing solutions typically examine nonverbal cues in isolation. Our study marks the first systematic effort to enhance the interpretation of multifaceted nonverbal signals. First, we contribute a novel large-scale dataset, called NVI, which is meticulously annotated to include bounding boxes for humans and corresponding social groups, along with 22 atomic-level nonverbal behaviors under five broad interaction types. Second, we establish a new task NVI-DET for nonverbal interaction detection, which is formalized as identifying triplets in the form <individual, group, interaction> from images. Third, we propose a nonverbal interaction detection hypergraph (NVI-DEHR), a new approach that explicitly models high-order nonverbal interactions using hypergraphs. Central to the model is a dual multi-scale hypergraph that adeptly addresses individual-to-individual and group-to-group correlations across varying scales, facilitating interactional feature learning and eventually improving interaction prediction. Extensive experiments on NVI show that NVI-DEHR improves various baselines significantly in NVI-DET. It also exhibits leading performance on HOI-DET, confirming its versatility in supporting related tasks and strong generalization ability. We hope that our study will offer the community new avenues to explore nonverbal signals in more depth.
翻訳日:2024-07-12 19:08:29 公開日:2024-07-11
# 表面改質のためのハイウェイネットワーク : 残像と軽量化の役割

Highway Networks for Improved Surface Reconstruction: The Role of Residuals and Weight Updates ( http://arxiv.org/abs/2407.08134v1 )

ライセンス: Link先を確認
A. Noorizadegan, Y. C. Hon, D. L. Young, C. S. Chen, (参考訳) 点雲からの表面の再構成は、コンピュータグラフィックスと医用画像の基本的な課題である。 本稿では,データポイントから表面を高精度かつ効率的に再構築するための,高度なニューラルネットワークアーキテクチャの適用について検討する。 本稿では,多層パーセプトロンの文脈において,新しいハイウェイネットワーク(Hw)であるSquare-Highway(SqrHw)を導入し,その性能をニューラルネットワークや単純化したHwとともに検討する。 これらの例としては、球面や人間の手のような単純で複雑な表面の再構築、スタンフォード・バニーのような複雑なモデルなどがある。 本研究では, 層数, 内部および外部点数, およびデータ分布などの要因が表面再構成品質に与える影響を解析した。 提案したSqrHwアーキテクチャは、他のニューラルネットワーク構成よりも優れており、より高速な収束と高品質な表面再構成を実現している。 さらに、医用画像のような挑戦的なアプリケーションに有用な機能である、欠落データよりも表面を予測できるSqrHwの能力を実証する。 さらに,本研究では,ハイウェイネットワークに基づく提案手法により,Plain Networkアーキテクチャと比較して,より安定したウェイトノルムとバックプロパゲーション勾配が得られることを示す。 この研究はコンピュータグラフィックスの分野を進歩させるだけでなく、関数補間や物理インフォームドニューラルネットワークなど、多層パーセプトロンをアルゴリズムに統合する他の目的にも有用である。

Surface reconstruction from point clouds is a fundamental challenge in computer graphics and medical imaging. In this paper, we explore the application of advanced neural network architectures for the accurate and efficient reconstruction of surfaces from data points. We introduce a novel variant of the Highway network (Hw) called Square-Highway (SqrHw) within the context of multilayer perceptrons and investigate its performance alongside plain neural networks and a simplified Hw in various numerical examples. These examples include the reconstruction of simple and complex surfaces, such as spheres, human hands, and intricate models like the Stanford Bunny. We analyze the impact of factors such as the number of hidden layers, interior and exterior points, and data distribution on surface reconstruction quality. Our results show that the proposed SqrHw architecture outperforms other neural network configurations, achieving faster convergence and higher-quality surface reconstructions. Additionally, we demonstrate the SqrHw's ability to predict surfaces over missing data, a valuable feature for challenging applications like medical imaging. Furthermore, our study delves into further details, demonstrating that the proposed method based on highway networks yields more stable weight norms and backpropagation gradients compared to the Plain Network architecture. This research not only advances the field of computer graphics but also holds utility for other purposes such as function interpolation and physics-informed neural networks, which integrate multilayer perceptrons into their algorithms.
翻訳日:2024-07-12 19:08:29 公開日:2024-07-11
# EchoMimic: 編集可能なランドマーク条件によるライブライクなオーディオ駆動のポートレートアニメーション

EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditions ( http://arxiv.org/abs/2407.08136v1 )

ライセンス: Link先を確認
Zhiyuan Chen, Jiajiong Cao, Zhiquan Chen, Yuming Li, Chenguang Ma, (参考訳) オーディオ入力によって推進されるポートレートイメージアニメーションの領域は、ライフライクでダイナミックなポートレートの生成において顕著な進歩を見せている。 従来の方法では、音声または顔のキーポイントを使用して映像をビデオに駆動するに限られるが、良好な結果が得られるが、ある問題が存在する。 例えば、音声のみによって駆動される手法は、比較的弱い音声信号のために時々不安定になり、一方、顔のキーポイントのみによって駆動される手法は、運転時により安定しているが、キーポイント情報の過剰な制御による不自然な結果をもたらす可能性がある。 本稿では,これまでに述べた課題に対処するため,EchoMimicという新しいアプローチを提案する。 EchoMimicはオーディオと顔のランドマークの両方を使って同時にトレーニングされている。 新たなトレーニング戦略の実装を通じて、EchoMimicは、オーディオと顔のランドマークを個別に生成するだけでなく、オーディオと選択された顔のランドマークを組み合わせることで、ポートレートビデオを生成することができる。 EchoMimicは、さまざまな公開データセットや収集データセットの代替アルゴリズムと比較して総合的に比較され、定量評価と定性評価の両方において優れたパフォーマンスを示している。 ソースコードへのさらなる視覚化とアクセスは、EchoMimicプロジェクトページにある。

The area of portrait image animation, propelled by audio input, has witnessed notable progress in the generation of lifelike and dynamic portraits. Conventional methods are limited to utilizing either audios or facial key points to drive images into videos, while they can yield satisfactory results, certain issues exist. For instance, methods driven solely by audios can be unstable at times due to the relatively weaker audio signal, while methods driven exclusively by facial key points, although more stable in driving, can result in unnatural outcomes due to the excessive control of key point information. In addressing the previously mentioned challenges, in this paper, we introduce a novel approach which we named EchoMimic. EchoMimic is concurrently trained using both audios and facial landmarks. Through the implementation of a novel training strategy, EchoMimic is capable of generating portrait videos not only by audios and facial landmarks individually, but also by a combination of both audios and selected facial landmarks. EchoMimic has been comprehensively compared with alternative algorithms across various public datasets and our collected dataset, showcasing superior performance in both quantitative and qualitative evaluations. Additional visualization and access to the source code can be located on the EchoMimic project page.
翻訳日:2024-07-12 19:08:29 公開日:2024-07-11
# 基礎的深層学習3次元再構成技術に関する調査研究

Survey on Fundamental Deep Learning 3D Reconstruction Techniques ( http://arxiv.org/abs/2407.08137v1 )

ライセンス: Link先を確認
Yonge Bai, LikHang Wong, TszYin Twan, (参考訳) 本調査は,光リアルな3次元モデルとシーンを生成する基礎的深層学習(DL)に基づく3次元再構成技術を検討することを目的として,NeRF(Neural Radiance Fields),LDM(Latent Diffusion Models),3D Gaussian Splattingに着目した。 我々は、基礎となるアルゴリズムを識別し、その強みとトレードオフを評価し、この急速に発展する分野における将来の研究軌道を計画する。 DL駆動の3Dシーンの再構築の基礎を概観し、その潜在的な応用と限界についての洞察を提供する。

This survey aims to investigate fundamental deep learning (DL) based 3D reconstruction techniques that produce photo-realistic 3D models and scenes, highlighting Neural Radiance Fields (NeRFs), Latent Diffusion Models (LDM), and 3D Gaussian Splatting. We dissect the underlying algorithms, evaluate their strengths and tradeoffs, and project future research trajectories in this rapidly evolving field. We provide a comprehensive overview of the fundamental in DL-driven 3D scene reconstruction, offering insights into their potential applications and limitations.
翻訳日:2024-07-12 19:08:29 公開日:2024-07-11
# 開発者が単体テストケースをどのように構成するか : 「AAA」の視点からの実証的研究

How Do Developers Structure Unit Test Cases? An Empirical Study from the "AAA" Perspective ( http://arxiv.org/abs/2407.08138v1 )

ライセンス: Link先を確認
Chenhao Wei, Lu Xiao, Tingting Yu, Sunny Wong, Abigail Clune, (参考訳) AAAパターン、すなわちアレンジ、アクション、アサーションは、単体テストケースのための統一された構造を提供し、理解と保守の恩恵を受ける。 しかし、現実の開発者がAAAに続くユニットテストケースを実際にどのように構成するかについては、ほとんど理解されていない。 特に、AAAの構造から逸脱し、リファクタリングのメリットを損なうアンチパターンが繰り返されていますか? そして、もしテストケースがAAA構造に従えば、Aブロックに設計上の欠陥があるだろうか? AAAに続くテストケースの設計を修正するリファクタリングを提案する場合、開発者はどのように提案を受けますか? 彼らはリファクタリングを好むか? もしそうでなければ、彼らの考慮事項は何でしょう? 本研究では,4つのオープンソースプロジェクトからランダムに選択された実生活単体テストケース435について実験的検討を行った。 全体として、テストケースの大多数(71.5%)はAAAの構造に従っている。 また,AAA構造から逸脱する3つのアンチパターンと,Aブロック内に存在する可能性のある4つの設計上の欠陥も観察した。 各イシュータイプには、その欠点と、それに対応するリファクタリング解決のメリットがあります。 これらの問題を解決するためのチケットとして、合計18のリファクタリング提案を送りました。 リファクタリングに賛成する肯定的なフィードバックは78%でした。 拒否から私たちは、リターン・オン・投資が開発者にとって重要な考慮事項であることを学びました。 本研究は,AAAを念頭に,実践者が単体テストケースを構築するための知見と,AAAを施行するための関連技術を開発するための知見を提供するものである。

The AAA pattern, i.e. arrange, act, and assert, provides a unified structure for unit test cases, which benefits comprehension and maintenance. However, there is little understanding regarding whether and how common real-life developers structure unit test cases following AAA in practice. In particular, are there recurring anti-patterns that deviate from the AAA structure and merit refactoring? And, if test cases follow the AAA structure, could they contain design flaws in the A blocks? If we propose refactoring to fix the design of test cases following the AAA, how do developers receive the proposals? Do they favor refactoring? If not, what are their considerations? This study presents an empirical study on 435 real-life unit test cases randomly selected from four open-source projects. Overall, the majority (71.5%) of test cases follow the AAA structure. And, we observed three recurring anti-patterns that deviate from the AAA structure, as well as four design flaws that may reside inside of the A blocks. Each issue type has its drawbacks and merits corresponding refactoring resolutions. We sent a total of 18 refactoring proposals as issue tickets for fixing these problems. We received 78% positive feedback favoring the refactoring. From the rejections, we learned that return-on-investment is a key consideration for developers. The findings provide insights for practitioners to structure unit test cases with AAA in mind, and for researchers to develop related techniques for enforcing AAA in test cases.
翻訳日:2024-07-12 19:08:29 公開日:2024-07-11
# 災害支援モバイルアプリに関する総合的研究

A Comprehensive Study of Disaster Support Mobile Apps ( http://arxiv.org/abs/2407.08145v1 )

ライセンス: Link先を確認
Muhamad Syukron, Anuradha Madugalla, Mojtaba Shahin, John Grundy, (参考訳) 文脈: 気候変動による災害は、その頻度と強度の両方を増大させる。 これらの災害が生活や生活に与える影響を軽減するためには、正確な警告と回復と緩和に関する情報を提供することが重要である。 今日、ほとんどの緊急管理機関は、この情報をモバイルアプリを通じて提供しています。 目的:世界中の災害対応モバイルアプリのコレクションがあります。 しかし、これらのアプリとそのレビューについて、重要な機能とユーザーからのフィードバックを理解するための詳細な研究はまだ行われていない。 本稿では,この研究ギャップに対処するための包括的分析について述べる。 方法:45の災害アプリと28,161のレビューについて詳細な分析を行った。 これらの45のアプリの特徴を手動で分析し,トピックモデリングと感情分析技術を用いたレビュー分析を行った。 結果: これらのアプリの重要な機能13点を特定し, 災害ライフサイクルの4段階に分類した。 分析の結果、アプリの警告機能、アプリの満足度、マップの利用について、最も議論の多かった22のトピックが明らかになった。 レビューの感度分析では、22\%のユーザが肯定的なフィードバックを提供しているのに対して、9.5\%は否定的で、6.8\%は中立だった。 また、サインアップ/サインイン問題、ネットワーク問題、アプリ構成問題などがユーザにとって最もイライラしていることも示している。 これはユーザーの安全に影響を及ぼし、最も重要だったアプリへのアクセスを妨げた。 結論: 将来のディザスタアプリ開発者には,実用的なレコメンデーションセットを提供しています。 私たちの発見は、一般的に議論されているユーザー問題を理解することで、災害対応アプリの開発に役立ちます。 これにより,ディザスタアプリエコシステムの改善と,ユーザフレンドリでサポート的なディザスタサポートアプリの実現が期待できる。

Context: Disasters are a common global occurrence with climate change leading to increase both their frequency and intensity. To reduce the impact of these disasters on lives and livelihoods it is important to provide accurate warnings and information about recovery and mitigation. Today most emergency management agencies deliver this information via mobile apps. Objective: There is a large collection of disaster mobile apps available across the globe. But a detailed study is not yet conducted on these apps and their reviews to understand their key features and user feedback. In this paper we present a comprehensive analysis to address this research gap. Method: We conducted a detailed analysis of 45 disaster apps and 28,161 reviews on these apps. We manually analysed the features of these 45 apps and for review analysis employed topic modelling and sentiment analysis techniques. Results: We identified 13 key features in these apps and categorised them in to the 4 stages of disaster life cycle. Our analysis revealed 22 topics with highest discussions being on apps alert functionality, app satisfaction and use of maps. Sentiment analysis of reviews showed that while 22\% of users provided positive feedback, 9.5\% were negative and 6.8\% were neutral. It also showed that signup/signin issues, network issues and app configuration issues were the most frustrating to users. These impacted user safety as these prevented them from accessing the app when it mattered most. Conclusions: We provide a set of practical recommendations for future disaster app developers. Our findings will help emergency agencies develop better disaster apps by ensuring key features are supported in their apps, by understanding commonly discussed user issues. This will help to improve the disaster app eco-system and lead to more user friendly and supportive disaster support apps in the future.
翻訳日:2024-07-12 19:08:29 公開日:2024-07-11
# Looks can be Deceptive: Distinguishing Repetition Disfluency from reuplication

Looks can be Deceptive: Distinguishing Repetition Disfluency from Reduplication ( http://arxiv.org/abs/2407.08147v1 )

ライセンス: Link先を確認
Arif Ahmad, Mothika Gayathri Khyathi, Pushpak Bhattacharyya, (参考訳) 重複と反復は形式的には似ているが、異なる言語的目的を果たす。 重複は、文法的、意味的、実践的なニュアンスを表現するために使われる故意の形態的過程であり、反復はしばしば意図せず、拡散を示すものである。 本稿では,計算言語学を用いた音声における重複と繰り返しの大規模研究について述べる。 我々は,Hindi,Telugu,Marathiテキストを含む新しい公開データセットであるIndicRedRepを紹介した。 我々は,2つの現象を区別するためにReparandum-Interregnum-Repair構造を用いて,マルチクラス複製と繰り返しトークン分類のためのトランスフォーマーモデルの評価を行った。 我々のモデルは、ヒンディー語で最大85.62%、テルグ語で83.95%、マラタイ語で84.82%のマクロF1スコアを得る。

Reduplication and repetition, though similar in form, serve distinct linguistic purposes. Reduplication is a deliberate morphological process used to express grammatical, semantic, or pragmatic nuances, while repetition is often unintentional and indicative of disfluency. This paper presents the first large-scale study of reduplication and repetition in speech using computational linguistics. We introduce IndicRedRep, a new publicly available dataset containing Hindi, Telugu, and Marathi text annotated with reduplication and repetition at the word level. We evaluate transformer-based models for multi-class reduplication and repetition token classification, utilizing the Reparandum-Interregnum-Repair structure to distinguish between the two phenomena. Our models achieve macro F1 scores of up to 85.62% in Hindi, 83.95% in Telugu, and 84.82% in Marathi for reduplication-repetition classification.
翻訳日:2024-07-12 19:08:29 公開日:2024-07-11
# SCPNet: モーダル内自己教師型学習による教師なしクロスモーダルホログラフィー推定

SCPNet: Unsupervised Cross-modal Homography Estimation via Intra-modal Self-supervised Learning ( http://arxiv.org/abs/2407.08148v1 )

ライセンス: Link先を確認
Runmin Zhang, Jun Ma, Si-Yuan Cao, Lun Luo, Beinan Yu, Shu-Jie Chen, Junwei Li, Hui-Liang Shen, (参考訳) 本研究では、モダル内自己教師付き学習、相関、一貫した特徴マップ、すなわちSCPNetに基づく教師なしクロスモーダルホモグラフィー推定フレームワークを提案する。 モーダル内自己教師あり学習の概念は、教師なしのモーダル・ホモグラフィー推定を容易にするために最初に提示される。 相関に基づくホモグラフィ推定ネットワークと一貫した特徴マップ投影を組み合わせ、SCPNetの学習可能なアーキテクチャを形成し、教師なし学習フレームワークを強化した。 SCPNetは、128x128画像上の[-32,+32]オフセットの下で、衛星マップのクロスモーダルデータセットであるGoogleMap上で、効果的な教師なしホモグラフィー推定を初めて達成し、平均コーナーエラー(MACE)の平均14.0%の教師付きアプローチであるMHNを導いた。 さらに、SCPNetが教師なしアプローチの中で最先端(SOTA)のパフォーマンスを達成し、49.0%、25.2%、36.4%、および10.7%のMACEを保有する、クロスモーダル/スペクトルおよび手動不整合データセットについて広範な実験を行った。 ソースコードはhttps://github.com/RM-Zhang/SCPNetで入手できる。

We propose a novel unsupervised cross-modal homography estimation framework based on intra-modal Self-supervised learning, Correlation, and consistent feature map Projection, namely SCPNet. The concept of intra-modal self-supervised learning is first presented to facilitate the unsupervised cross-modal homography estimation. The correlation-based homography estimation network and the consistent feature map projection are combined to form the learnable architecture of SCPNet, boosting the unsupervised learning framework. SCPNet is the first to achieve effective unsupervised homography estimation on the satellite-map image pair cross-modal dataset, GoogleMap, under [-32,+32] offset on a 128x128 image, leading the supervised approach MHN by 14.0% of mean average corner error (MACE). We further conduct extensive experiments on several cross-modal/spectral and manually-made inconsistent datasets, on which SCPNet achieves the state-of-the-art (SOTA) performance among unsupervised approaches, and owns 49.0%, 25.2%, 36.4%, and 10.7% lower MACEs than the supervised approach MHN. Source code is available at https://github.com/RM-Zhang/SCPNet.
翻訳日:2024-07-12 19:08:29 公開日:2024-07-11
# 単発形状と地表面散乱推定のための深部偏光キュー

Deep Polarization Cues for Single-shot Shape and Subsurface Scattering Estimation ( http://arxiv.org/abs/2407.08149v1 )

ライセンス: Link先を確認
Chenhao Li, Trung Thanh Ngo, Hajime Nagahara, (参考訳) 本研究では,透明物体の形状と地表面散乱(SSS)パラメータを偏光キューを用いて共同で推定する新しい学習手法を提案する。 偏光キューは、偏光からの形状(SfP)、BRDF推定、反射除去など様々な用途で用いられているが、SSS推定への応用はまだ検討されていない。 観測の結果,SSSは光強度だけでなく偏光信号にも影響を及ぼすことがわかった。 これにより、偏光信号は、SSS推定のための追加の手がかりを提供することができる。 また、偏光半透明物体の大規模合成データセットを導入し、モデルを訓練する。 本手法は,SfPと逆レンダリング領域を合成データと実データの両方で比較し,定性的,定量的な結果を得た。

In this work, we propose a novel learning-based method to jointly estimate the shape and subsurface scattering (SSS) parameters of translucent objects by utilizing polarization cues. Although polarization cues have been used in various applications, such as shape from polarization (SfP), BRDF estimation, and reflection removal, their application in SSS estimation has not yet been explored. Our observations indicate that the SSS affects not only the light intensity but also the polarization signal. Hence, the polarization signal can provide additional cues for SSS estimation. We also introduce the first large-scale synthetic dataset of polarized translucent objects for training our model. Our method outperforms several baselines from the SfP and inverse rendering realms on both synthetic and real data, as demonstrated by qualitative and quantitative results.
翻訳日:2024-07-12 19:08:29 公開日:2024-07-11
# ハイパーグラフ多モード大言語モデル:映像理解のための不均一応答評価のための脳波と視線追跡モダリティの爆発

Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding ( http://arxiv.org/abs/2407.08150v1 )

ライセンス: Link先を確認
Minghui Wu, Chenxu Zhao, Anyang Su, Donglin Di, Tianyu Fu, Da An, Min He, Ya Gao, Meng Ma, Kun Yan, Ping Wang, (参考訳) ビデオの創造性と内容の理解はしばしば個人によって異なり、年齢、経験、性別によって焦点や認知レベルが異なる。 現在この分野には研究の欠如があり、既存のベンチマークにはいくつかの欠点がある。 1) モダリティの限定数及び制限長の回答 2)ビデオの内容とシナリオは過度に単調であり,過度に単純化された情動や情動を伝達する。 実世界のアプリケーションにギャップを埋めるために、大規模な \textbf{S}ubjective \textbf{R}esponse \textbf{I}ndicators for \textbf{A}dvertisement \textbf{V}ideos dataset、すなわち SRI-ADV を導入する。 具体的には、脳波(EEG)と視線追跡領域の実際の変化を異なる人口層から収集し、同じ映像コンテンツを視聴した。 このマルチモーダルデータセットを用いて、異なるユーザ間での映像コンテンツの認知的理解度を分析し評価するタスクとプロトコルを開発した。 このデータセットとともに、異なる人口層、ビデオ要素、脳波、眼球追跡指標の関連性を調べるために、 \textbf{H}ypergraph \textbf{M}ulti-modal \textbf{L}arge \textbf{L}anguage \textbf{M}odel (HMLLM) を設計した。 HMLLMは、豊富なモダリティにセマンティックギャップを埋め、異なるモダリティを超えて情報を統合して論理的推論を行うことができる。 SRI-ADVおよび他のビデオベース生成性能ベンチマークの大規模実験により,本手法の有効性が示された。 コードとデータセットは \url{https://github.com/suay1113/HMLLM} でリリースされる。

Understanding of video creativity and content often varies among individuals, with differences in focal points and cognitive levels across different ages, experiences, and genders. There is currently a lack of research in this area, and most existing benchmarks suffer from several drawbacks: 1) a limited number of modalities and answers with restrictive length; 2) the content and scenarios within the videos are excessively monotonous, transmitting allegories and emotions that are overly simplistic. To bridge the gap to real-world applications, we introduce a large-scale \textbf{S}ubjective \textbf{R}esponse \textbf{I}ndicators for \textbf{A}dvertisement \textbf{V}ideos dataset, namely SRI-ADV. Specifically, we collected real changes in Electroencephalographic (EEG) and eye-tracking regions from different demographics while they viewed identical video content. Utilizing this multi-modal dataset, we developed tasks and protocols to analyze and evaluate the extent of cognitive understanding of video content among different users. Along with the dataset, we designed a \textbf{H}ypergraph \textbf{M}ulti-modal \textbf{L}arge \textbf{L}anguage \textbf{M}odel (HMLLM) to explore the associations among different demographics, video elements, EEG and eye-tracking indicators. HMLLM could bridge semantic gaps across rich modalities and integrate information beyond different modalities to perform logical reasoning. Extensive experimental evaluations on SRI-ADV and other additional video-based generative performance benchmarks demonstrate the effectiveness of our method. The codes and dataset will be released at \url{https://github.com/suay1113/HMLLM}.
翻訳日:2024-07-12 19:08:29 公開日:2024-07-11
# コンテキスト対応コピーペーストによる画像の内容の充実

Enrich the content of the image Using Context-Aware Copy Paste ( http://arxiv.org/abs/2407.08151v1 )

ライセンス: Link先を確認
Qiushi Guo, (参考訳) データ拡張は、ディープラーニング、特に画像分類、セマンティックセグメンテーション、オブジェクト検出などのタスクにおいて広く利用されているテクニックである。 中でもCopy-Pasteはシンプルだが効果的な方法であり、近年は注目されている。 しかし、既存の Copy-Paste はソースとターゲットのイメージのコンテキスト的関連性を見落とし、出力に矛盾が生じている。 この課題に対処するために、ソース画像からのコンテンツ抽出に双方向潜時情報伝達(BLIP)を統合するコンテキスト認識アプローチを提案する。 抽出したコンテンツ情報とカテゴリ情報とをマッチングすることにより,Segment Anything Model (SAM) と You Only Look Once (YOLO) を用いて対象物の密結合性を確保する。 このアプローチでは手動のアノテーションが不要になり、自動化されたユーザフレンドリなソリューションが提供される。 多様なデータセットにまたがる実験により,データ多様性の向上とコンピュータビジョンタスクにおける高品質な擬似画像の生成において,本手法の有効性が示された。

Data augmentation remains a widely utilized technique in deep learning, particularly in tasks such as image classification, semantic segmentation, and object detection. Among them, Copy-Paste is a simple yet effective method and gain great attention recently. However, existing Copy-Paste often overlook contextual relevance between source and target images, resulting in inconsistencies in generated outputs. To address this challenge, we propose a context-aware approach that integrates Bidirectional Latent Information Propagation (BLIP) for content extraction from source images. By matching extracted content information with category information, our method ensures cohesive integration of target objects using Segment Anything Model (SAM) and You Only Look Once (YOLO). This approach eliminates the need for manual annotation, offering an automated and user-friendly solution. Experimental evaluations across diverse datasets demonstrate the effectiveness of our method in enhancing data diversity and generating high-quality pseudo-images across various computer vision tasks.
翻訳日:2024-07-12 19:08:29 公開日:2024-07-11
# 言語モデルのフェデレーション学習を促進するためのプライバシ保護データ重複

Privacy-Preserving Data Deduplication for Enhancing Federated Learning of Language Models ( http://arxiv.org/abs/2407.08152v1 )

ライセンス: Link先を確認
Aydin Abadi, Vishnu Asutosh Dasu, Sumanta Sarkar, (参考訳) 重複は、機械学習モデルのパフォーマンスを高め、トレーニング時間とエネルギーを節約する重要な前処理ステップである。 しかしながら、重複解消による連合学習の強化は、特に、重複解消がすべてのクライアントのデータ共有に関わる場合、スケーラビリティと潜在的なプライバシー侵害に関する課題を引き起こす。 本稿では,EP-MPD(Efficient Privacy-Preserving Multi-Party Deduplication)という先駆的なプロトコルを導入することで,フェデレートされたセットアップにおける重複解消の問題に対処する。 データのプライバシを損なうことなく、複数のクライアントのデータセットからの重複を効率的に除去する。 EP-MPDは、Private Set Intersectionプロトコルの2つの新しい変種を利用してモジュール方式で構築されている。 大規模言語モデルの連合学習における重複の顕著な利点を実証した。 例えば、パープレキシティを最大19.61%改善し、ランニングタイムを最大27.95%削減する。 EP-MPDは、フェデレーション学習におけるプライバシとパフォーマンスのバランスを効果的に保ち、大規模なアプリケーションにとって価値のあるソリューションである。

Deduplication is a vital preprocessing step that enhances machine learning model performance and saves training time and energy. However, enhancing federated learning through deduplication poses challenges, especially regarding scalability and potential privacy violations if deduplication involves sharing all clients' data. In this paper, we address the problem of deduplication in a federated setup by introducing a pioneering protocol, Efficient Privacy-Preserving Multi-Party Deduplication (EP-MPD). It efficiently removes duplicates from multiple clients' datasets without compromising data privacy. EP-MPD is constructed in a modular fashion, utilizing two novel variants of the Private Set Intersection protocol. Our extensive experiments demonstrate the significant benefits of deduplication in federated learning of large language models. For instance, we observe up to 19.61% improvement in perplexity and up to 27.95% reduction in running time. EP-MPD effectively balances privacy and performance in federated learning, making it a valuable solution for large-scale applications.
翻訳日:2024-07-12 19:08:29 公開日:2024-07-11
# 距離一貫性リハーサルによる画像検索における生涯病理組織学

Lifelong Histopathology Whole Slide Image Retrieval via Distance Consistency Rehearsal ( http://arxiv.org/abs/2407.08153v1 )

ライセンス: Link先を確認
Xinyu Zhu, Zhiguo Jiang, Kun Wu, Jun Shi, Yushan Zheng, (参考訳) 近年,CBHIR (Content-based Histopathological Image Search) が注目されている。 しかし、臨床実践においては、WSIデータベースの連続的な拡張サイズは、現在のCBHIR法の実用化に制限される。 本稿では,連続的に成長する検索データベース上でのプログレッシブモデル更新による破滅的な忘れ込みの課題を解決するために,ライフロング・ホール・スライド検索(LWSR)フレームワークを提案する。 私たちのフレームワークは、継続的学習中に安定性と可塑性のバランスを達成することを目的としています。 システムの可塑性を維持するため,ローカルメモリバンクと貯水池サンプリングを用いて,旧タスクと新タスクの両方の特徴空間を包括的に包括的に包括的に包括するインスタンスの保存を行う。 さらに,従来のタスクに対する検索キューの整合性を確保するために,距離整合リハーサル (DCR) モジュールが設計されている。 提案手法をTCGAプロジェクトの4つの公開WSIデータセット上で評価した。 実験により,提案手法は有効であり,最先端手法よりも優れていることが示された。

Content-based histopathological image retrieval (CBHIR) has gained attention in recent years, offering the capability to return histopathology images that are content-wise similar to the query one from an established database. However, in clinical practice, the continuously expanding size of WSI databases limits the practical application of the current CBHIR methods. In this paper, we propose a Lifelong Whole Slide Retrieval (LWSR) framework to address the challenges of catastrophic forgetting by progressive model updating on continuously growing retrieval database. Our framework aims to achieve the balance between stability and plasticity during continuous learning. To preserve system plasticity, we utilize local memory bank with reservoir sampling method to save instances, which can comprehensively encompass the feature spaces of both old and new tasks. Furthermore, A distance consistency rehearsal (DCR) module is designed to ensure the retrieval queue's consistency for previous tasks, which is regarded as stability within a lifelong CBHIR system. We evaluated the proposed method on four public WSI datasets from TCGA projects. The experimental results have demonstrated the proposed method is effective and is superior to the state-of-the-art methods.
翻訳日:2024-07-12 18:58:33 公開日:2024-07-11
# AddressCLIP: 都市全体像の位置情報化のための視覚言語モデルの構築

AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization ( http://arxiv.org/abs/2407.08156v1 )

ライセンス: Link先を確認
Shixiong Xu, Chenghao Zhang, Lubin Fan, Gaofeng Meng, Shiming Xiang, Jieping Ye, (参考訳) 本研究では,ソーシャルメディアやフォトジャーナリストによる新たな問題である画像アドレス局所化(ial)を導入し,画像が撮られた場合の可読なテキストアドレスを予測することを目的とした。 既存の2段階のアプローチでは、地理的座標を予測し、それを人間可読アドレスに変換し、曖昧さとリソース集約化につながる可能性がある。 これとは対照的に、より意味論的に問題を解決するためにAddressCLIPというエンドツーエンドのフレームワークを提案する。 一 コントラスト学習により、画像と住所及びシーンキャプションとを一致させる画像テキストアライメント 二 画像特徴と空間的距離を、多様体学習の観点で制約する画像地形整合性 さらに、私たちはピッツバーグとサンフランシスコの3つのデータセットを、IAL問題に特化したさまざまなスケールで構築しました。 実験により,提案手法は,提案したデータセットに対して魅力的な性能を達成し,視覚言語モデルに対する代表的伝達学習手法より優れることを示した。 さらに,提案手法の有効性を広範囲に検証し,可視化を行った。 データセットとソースコードはhttps://github.com/xsx1001/AddressCLIPで入手できる。

In this study, we introduce a new problem raised by social media and photojournalism, named Image Address Localization (IAL), which aims to predict the readable textual address where an image was taken. Existing two-stage approaches involve predicting geographical coordinates and converting them into human-readable addresses, which can lead to ambiguity and be resource-intensive. In contrast, we propose an end-to-end framework named AddressCLIP to solve the problem with more semantics, consisting of two key ingredients: i) image-text alignment to align images with addresses and scene captions by contrastive learning, and ii) image-geography matching to constrain image features with the spatial distance in terms of manifold learning. Additionally, we have built three datasets from Pittsburgh and San Francisco on different scales specifically for the IAL problem. Experiments demonstrate that our approach achieves compelling performance on the proposed datasets and outperforms representative transfer learning methods for vision-language models. Furthermore, extensive ablations and visualizations exhibit the effectiveness of the proposed method. The datasets and source code are available at https://github.com/xsx1001/AddressCLIP.
翻訳日:2024-07-12 18:58:33 公開日:2024-07-11
# サイバーセキュリティ環境におけるモデル非依存クリーンラベルバックドア緩和

Model-agnostic clean-label backdoor mitigation in cybersecurity environments ( http://arxiv.org/abs/2407.08159v1 )

ライセンス: Link先を確認
Giorgio Severi, Simona Boboila, John Holodnak, Kendra Kratkiewicz, Rauf Izmailov, Alina Oprea, (参考訳) 機械学習モデルのトレーニングフェーズは、特にサイバーセキュリティにおける微妙なステップである。 近年の研究では、トレーニングラベルを変更することなく、セキュリティ分類タスク用に設計されたモデルにバックドアを注入する、一連の悪質なトレーニングタイム攻撃が表面化している。 本研究では,サイバーセキュリティの脅威モデルに対する洞察を利用して,これらのクリーンラベル中毒攻撃を効果的に軽減し,モデルユーティリティを保ちながら,新たな手法を提案する。 慎重に選択された特徴部分空間上で密度に基づくクラスタリングを行い、新たな反復的なスコアリング手順によって不審なクラスタを段階的に分離することにより、既存のバックドア防衛文献に共通する前提の多くを必要とせずに攻撃を緩和することができる。 提案手法の汎用性を示すため,ネットワークフローの分類とマルウェアの分類という,2つの古典的サイバーセキュリティデータに対するクリーンラベルモデルに依存しない2つの攻撃について,勾配強化とニューラルネットワークモデルを用いて評価を行った。

The training phase of machine learning models is a delicate step, especially in cybersecurity contexts. Recent research has surfaced a series of insidious training-time attacks that inject backdoors in models designed for security classification tasks without altering the training labels. With this work, we propose new techniques that leverage insights in cybersecurity threat models to effectively mitigate these clean-label poisoning attacks, while preserving the model utility. By performing density-based clustering on a carefully chosen feature subspace, and progressively isolating the suspicious clusters through a novel iterative scoring procedure, our defensive mechanism can mitigate the attacks without requiring many of the common assumptions in the existing backdoor defense literature. To show the generality of our proposed mitigation, we evaluate it on two clean-label model-agnostic attacks on two different classic cybersecurity data modalities: network flows classification and malware classification, using gradient boosting and neural network models.
翻訳日:2024-07-12 18:58:33 公開日:2024-07-11
# 細胞と組織の微細生体力学的イメージングのためのハーネス量子光

Harnessing quantum light for microscopic biomechanical imaging of cells and tissues ( http://arxiv.org/abs/2407.08160v1 )

ライセンス: Link先を確認
Tian Li, Vsevolod Cheburkanov, Vladislav V. Yakovlev, Girish S. Agarwal, Marlan O. Scully, (参考訳) 細胞と組織の生体力学的性質は、細胞および細胞内レベルでの生体系の構造と機能に対する根本的な理解において重要な役割を担っている。 近年,生体内における粘弾性特性を評価するためのラベルのない分光分析手段であるブリルアン顕微鏡が,生体組織の顕微鏡レベルでこれらの特性を検査する強力な方法として出現している。 しかし、特にブリルアン散乱を誘導するために高強度レーザービームを使用する場合、光損傷や光漂白への感受性は重大な課題となる。 本稿では,生物・生物医学研究における光損傷を軽減し,生体試料中の非破壊的,ラベルなしの機械的特性の評価を可能にするための変換的アプローチを提案する。 量子光励起ブリルアン散乱(SBS)イメージングコントラストを活用することにより、信号対雑音比が著しく上昇し、生体試料の完全性を損なうことなく、試料の生存可能性を高め、尋問時間を延長する。 この手法の具体的な影響は、従来のコヒーレント光ベースのアプローチを超越して、試料を連続的に3時間に絞った後に観察された試料の生存率の顕著な3倍の上昇によって証明される。 量子化SBSイメージングは、がん生物学や神経科学などの様々な分野において、サンプルの活力を維持することが最も重要な分野である。 高強度レーザーによる光損傷や光漂白に関する懸念を緩和することにより、この技術は生体システムの力学的性質を探求し、新たな研究と臨床応用の道を開くための地平を広げる。

The biomechanical properties of cells and tissues play an important role in our fundamental understanding of the structures and functions of biological systems at both the cellular and subcellular levels. Recently, Brillouin microscopy, which offers a label-free spectroscopic means of assessing viscoelastic properties in vivo, has emerged as a powerful way to interrogate those properties on a microscopic level in living tissues. However, susceptibility to photo-damage and photo-bleaching, particularly when high-intensity laser beams are used to induce Brillouin scattering, poses a significant challenge. This article introduces a transformative approach designed to mitigate photo-damage in biological and biomedical studies, enabling non-destructive, label-free assessments of mechanical properties in live biological samples. By leveraging quantum-light-enhanced stimulated Brillouin scattering (SBS) imaging contrast, the signal-to-noise ratio is significantly elevated, thereby increasing sample viability and extending interrogation times without compromising the integrity of living samples. The tangible impact of this novel methodology is evidenced by a notable three-fold increase in sample viability observed after subjecting the samples to three hours of continuous squeezed-light illumination, surpassing the traditional coherent light-based approaches. The quantum-enhanced SBS imaging holds promise across diverse fields, such as cancer biology and neuroscience where preserving sample vitality is of paramount significance. By mitigating concerns regarding photo-damage and photo-bleaching associated with high-intensity lasers, this technological breakthrough expands our horizons for exploring the mechanical properties of live biological systems, paving the way for a new era of research and clinical applications.
翻訳日:2024-07-12 18:58:33 公開日:2024-07-11
# 位置推定の検証による視覚的位置認識に基づくロボットナビゲーションの改善

Improving Visual Place Recognition Based Robot Navigation Through Verification of Localization Estimates ( http://arxiv.org/abs/2407.08162v1 )

ライセンス: Link先を確認
Owen Claxton, Connor Malone, Helen Carson, Jason Ford, Gabe Bolton, Iman Shames, Michael Milford, (参考訳) 視覚的位置認識(VPR)システムは、ロボットナビゲーションの決定に影響を及ぼす不完全な性能を持つことが多い。 本研究は,従来のSVMアプローチよりも性能と一般化性を向上し,環境ごとのトレーニングを廃止し,手動のチューニング要求を低減した,VPRのための新しいMulti-Layer Perceptron(MLP)整合性モニタを提案する。 提案手法を実世界の広範囲にわたる実験で検証し, 目標領域に移動するロボットの即時拒否法(実験1)と, 最新の軌道と一致した最良かつ検証された歴史手法(実験2)と, ドメータを用いて現在位置推定に先んじる手法(実験2)の2つの実時間完全性に基づくVPR検証手法を提案する。 実験1の注目すべき結果は、ロボットが完了を追求するミッションにおいて、トラックのゴール誤差の合計平均値が ~9.8m から ~3.1m に減少し、ミッション完了の成功率は ~41% から ~55% に増加したことである。 実験2では, トラック位置推定誤差が ~2.0m から ~0.5m に減少し, 局所化試行の集計精度が ~97% から ~99% に向上した。 本研究は,実世界のロボット工学において,VPRの局所化とナビゲーション性能を向上させるために,VPR整合性モニタの実用的有用性を示すものである。

Visual Place Recognition (VPR) systems often have imperfect performance, which affects robot navigation decisions. This research introduces a novel Multi-Layer Perceptron (MLP) integrity monitor for VPR which demonstrates improved performance and generalizability over the previous state-of-the-art SVM approach, removing per-environment training and reducing manual tuning requirements. We test our proposed system in extensive real-world experiments, where we also present two real-time integrity-based VPR verification methods: an instantaneous rejection method for a robot navigating to a goal zone (Experiment 1); and a historical method that takes a best, verified, match from its recent trajectory and uses an odometer to extrapolate forwards to a current position estimate (Experiment 2). Noteworthy results for Experiment 1 include a decrease in aggregate mean along-track goal error from ~9.8m to ~3.1m in missions the robot pursued to completion, and an increase in the aggregate rate of successful mission completion from ~41% to ~55%. Experiment 2 showed a decrease in aggregate mean along-track localization error from ~2.0m to ~0.5m, and an increase in the aggregate precision of localization attempts from ~97% to ~99%. Overall, our results demonstrate the practical usefulness of a VPR integrity monitor in real-world robotics to improve VPR localization and consequent navigation performance.
翻訳日:2024-07-12 18:58:33 公開日:2024-07-11
# 階層型合意に基づくマルチロボット協調作業のためのマルチエージェント強化学習

Hierarchical Consensus-Based Multi-Agent Reinforcement Learning for Multi-Robot Cooperation Tasks ( http://arxiv.org/abs/2407.08164v1 )

ライセンス: Link先を確認
Pu Feng, Junkang Liang, Size Wang, Xin Yu, Rongye Shi, Wenjun Wu, (参考訳) マルチエージェント強化学習(MARL)では、中央集中型訓練と分散実行(CTDE)フレームワークが重要であるが、ギャップのために苦労している。 人間の社会的コンセンサス機構にインスパイアされた階層型マルチエージェント強化学習(HC-MARL)フレームワークを導入し,その限界に対処する。 HC-MARLは、エージェント間のグローバルコンセンサスを促進するために対照的な学習を採用し、直接のコミュニケーションなしに協調行動を可能にする。 このアプローチにより、エージェントはローカルな観測からグローバルなコンセンサスを形成することができ、それを追加の情報として使用することで、実行中の協調行動のガイドが可能になる。 様々なタスクの動的な要求を満たすために、コンセンサスを複数の層に分割し、短期的および長期的考慮を包含する。 短期的な観測は即時、低層的なコンセンサスの形成を促す一方で、長期的な観測は戦略的、高層的なコンセンサスの形成に寄与する。 このプロセスは、各コンセンサス層の影響を動的に調整するアダプティブアテンション機構によってさらに洗練される。 このメカニズムは即時反応と戦略的計画のバランスを最適化し、手前のタスクの特定の要求に合わせて調整する。 マルチロボットシステムにおける大規模な実験と実世界の応用は、我々のフレームワークの優れた性能を示し、ベースラインよりも大幅に進歩したことを示している。

In multi-agent reinforcement learning (MARL), the Centralized Training with Decentralized Execution (CTDE) framework is pivotal but struggles due to a gap: global state guidance in training versus reliance on local observations in execution, lacking global signals. Inspired by human societal consensus mechanisms, we introduce the Hierarchical Consensus-based Multi-Agent Reinforcement Learning (HC-MARL) framework to address this limitation. HC-MARL employs contrastive learning to foster a global consensus among agents, enabling cooperative behavior without direct communication. This approach enables agents to form a global consensus from local observations, using it as an additional piece of information to guide collaborative actions during execution. To cater to the dynamic requirements of various tasks, consensus is divided into multiple layers, encompassing both short-term and long-term considerations. Short-term observations prompt the creation of an immediate, low-layer consensus, while long-term observations contribute to the formation of a strategic, high-layer consensus. This process is further refined through an adaptive attention mechanism that dynamically adjusts the influence of each consensus layer. This mechanism optimizes the balance between immediate reactions and strategic planning, tailoring it to the specific demands of the task at hand. Extensive experiments and real-world applications in multi-robot systems showcase our framework's superior performance, marking significant advancements over baselines.
翻訳日:2024-07-12 18:58:33 公開日:2024-07-11
# Explicit_NeRF_QA: Explicit NeRFモデル圧縮のための品質評価データベース

Explicit_NeRF_QA: A Quality Assessment Database for Explicit NeRF Model Compression ( http://arxiv.org/abs/2407.08165v1 )

ライセンス: Link先を確認
Yuke Xing, Qi Yang, Kaifa Yang, Yilin Xu, Zhu Li, (参考訳) 近年,Neural Radiance Fields (NeRF) は3Dシーンの表現と合成において大きな優位性を示している。 明示的なNeRFモデルは、より高速なレンダリング速度を持つ実用的なNeRFアプリケーションを容易にし、また巨大なストレージコストのためにNeRF圧縮に大きな注目を集める。 本稿では,NeRF圧縮研究の課題に対処するため,Explicit_NeRF_QAと呼ばれる新しいデータセットを構築した。 5つのパラメータレベルにまたがる4つの典型的なNeRFモデルをトレーニングするために、さまざまなジオメトリ、テクスチャ、材料複合体を持つ22の3Dオブジェクトを使用します。 モデル生成中にロッシー圧縮が導入され、InstantNGPのハッシュテーブルサイズやPlenoxelsのボクセルグリッド解像度などのキーパラメータの選択が中心となる。 処理されたビデオシーケンス(PVS)にNeRFサンプルをレンダリングすることにより、実験室環境における大規模な主観的実験を行い、21人の視聴者から主観的スコアを収集する。 提案したデータセットの多様性,平均世論スコア(MOS)の精度,NeRF歪みの特徴を包括的に提示し,その不均一性を確立した。 最先端の客観的メトリクスは、新しいデータセットでテストされる。 ベストパーソン相関(Best Person correlation)は、約0.85で、全参照客観的指標から収集される。 すべてのテストされたノン参照メトリクスは、0.4から0.6の相関で非常に低い結果を報告し、より堅牢なノン参照メトリクスのさらなる開発の必要性を示している。 NeRFサンプル、ソース3Dオブジェクト、NeRF生成用のマルチビューイメージ、PSV、MOSを含むデータセットは、以下の場所で公開されている。

In recent years, Neural Radiance Fields (NeRF) have demonstrated significant advantages in representing and synthesizing 3D scenes. Explicit NeRF models facilitate the practical NeRF applications with faster rendering speed, and also attract considerable attention in NeRF compression due to its huge storage cost. To address the challenge of the NeRF compression study, in this paper, we construct a new dataset, called Explicit_NeRF_QA. We use 22 3D objects with diverse geometries, textures, and material complexities to train four typical explicit NeRF models across five parameter levels. Lossy compression is introduced during the model generation, pivoting the selection of key parameters such as hash table size for InstantNGP and voxel grid resolution for Plenoxels. By rendering NeRF samples to processed video sequences (PVS), a large scale subjective experiment with lab environment is conducted to collect subjective scores from 21 viewers. The diversity of content, accuracy of mean opinion scores (MOS), and characteristics of NeRF distortion are comprehensively presented, establishing the heterogeneity of the proposed dataset. The state-of-the-art objective metrics are tested in the new dataset. Best Person correlation, which is around 0.85, is collected from the full-reference objective metric. All tested no-reference metrics report very poor results with 0.4 to 0.6 correlations, demonstrating the need for further development of more robust no-reference metrics. The dataset, including NeRF samples, source 3D objects, multiview images for NeRF generation, PVSs, MOS, is made publicly available at the following location: https://github.com/LittlericeChloe/Explicit_NeRF_QA.
翻訳日:2024-07-12 18:58:33 公開日:2024-07-11
# 条件付き生成逆数ネットワークを用いた自閉症スペクトラム障害の分類強化のための合成網膜信号生成

Synthetic Electroretinogram Signal Generation Using Conditional Generative Adversarial Network for Enhancing Classification of Autism Spectrum Disorder ( http://arxiv.org/abs/2407.08166v1 )

ライセンス: Link先を確認
Mikhail Kulyabin, Paul A. Constable, Aleksei Zhdanov, Irene O. Lee, David H. Skuse, Dorothy A. Thompson, Andreas Maier, (参考訳) ERG(Electroretinogram)は、網膜の光に対する電気応答を記録する臨床検査である。 ERGは、自閉症スペクトラム障害(ASD)を含む様々な神経発達障害や神経変性障害を研究するための有望な方法であり、言語、コミュニケーション、相互社会的相互作用に影響を与える神経発達障害である。 しかし、大規模なデータセットを収集する能力に制限があるASDのような異種集団では、人工知能(AI)の適用は複雑である。 実ERG記録から生成された合成ERG信号は、自然のERGと同様の情報を持ち、したがって、AIアプリケーションを完全に活用できるようにデータセットを増やすために、自然データの拡張として使用できる。 本研究は, ASD 児の合成ERG 信号を生成可能で, 典型的にはコントロール個人を育成できるジェネレーティブ・アドバイサル・ネットワークを提案する。 本研究では,連続ウェーブレット変換を用いた時系列変換器と視覚変換器を適用し,拡張合成信号データセットの分類結果を向上した。 このアプローチは、ERGが障害の分類に役立つ可能性のある関連する精神疾患の分類モデルをサポートするかもしれない。

The electroretinogram (ERG) is a clinical test that records the retina's electrical response to light. The ERG is a promising way to study different neurodevelopmental and neurodegenerative disorders, including autism spectrum disorder (ASD) - a neurodevelopmental condition that impacts language, communication, and reciprocal social interactions. However, in heterogeneous populations, such as ASD, where the ability to collect large datasets is limited, the application of artificial intelligence (AI) is complicated. Synthetic ERG signals generated from real ERG recordings carry similar information as natural ERGs and, therefore, could be used as an extension for natural data to increase datasets so that AI applications can be fully utilized. As proof of principle, this study presents a Generative Adversarial Network capable of generating synthetic ERG signals of children with ASD and typically developing control individuals. We applied a Time Series Transformer and Visual Transformer with Continuous Wavelet Transform to enhance classification results on the extended synthetic signals dataset. This approach may support classification models in related psychiatric conditions where the ERG may help classify disorders.
翻訳日:2024-07-12 18:58:33 公開日:2024-07-11
# DSCENet:MPNサブタイプ分類のための動的スクリーニングと多モード融合

DSCENet: Dynamic Screening and Clinical-Enhanced Multimodal Fusion for MPNs Subtype Classification ( http://arxiv.org/abs/2407.08167v1 )

ライセンス: Link先を確認
Yuan Zhang, Yaolei Qi, Xiaoming Qi, Yongyue Wei, Guanyu Yang, (参考訳) 多変量情報に基づく骨髄増殖性腫瘍(MPN)の正確なサブタイプ分類は、臨床医が診断や長期治療計画を行うのを補助するものであり、非常に臨床的に重要である。 しかし、局所パッチの診断代表性が欠如し、単一のモダリティによる診断関連機能が欠如しているため、これは大きな課題である。 本稿では,全スライド画像(WSI)と臨床情報のマルチモーダル融合に基づくMPNのサブタイプ分類のための動的スクリーニング・臨床拡張ネットワーク(DSCENet)を提案する。 1) 局所パッチの特徴学習を柔軟に適応し, 関係のない特徴の干渉を低減し, 診断代表性を高める動的スクリーニングモジュールを提案する。 2) 臨床拡張融合モジュールは, 臨床指標を統合し, 相補的特徴を探索し, 包括的診断情報を提供する。 従来のSOTA法と比較して,AUCは7.91%,精度は16.89%向上した。 コードはhttps://github.com/yuanzhang7/DSCENetで公開されている。

The precise subtype classification of myeloproliferative neoplasms (MPNs) based on multimodal information, which assists clinicians in diagnosis and long-term treatment plans, is of great clinical significance. However, it remains a great challenging task due to the lack of diagnostic representativeness for local patches and the absence of diagnostic-relevant features from a single modality. In this paper, we propose a Dynamic Screening and Clinical-Enhanced Network (DSCENet) for the subtype classification of MPNs on the multimodal fusion of whole slide images (WSIs) and clinical information. (1) A dynamic screening module is proposed to flexibly adapt the feature learning of local patches, reducing the interference of irrelevant features and enhancing their diagnostic representativeness. (2) A clinical-enhanced fusion module is proposed to integrate clinical indicators to explore complementary features across modalities, providing comprehensive diagnostic information. Our approach has been validated on the real clinical data, achieving an increase of 7.91% AUC and 16.89% accuracy compared with the previous state-of-the-art (SOTA) methods. The code is available at https://github.com/yuanzhang7/DSCENet.
翻訳日:2024-07-12 18:58:33 公開日:2024-07-11
# 自然なグラディエントDescentによる高速機械学習

Faster Machine Unlearning via Natural Gradient Descent ( http://arxiv.org/abs/2407.08169v1 )

ライセンス: Link先を確認
Omri Lev, Ashia Wilson, (参考訳) 経験的リスク最小化(Empirical Risk Minimization:ERM)を用いてトレーニングされた機械学習モデルからデータを効率よく確実に削除するという課題に対処する。 そこで本研究では,Natural Gradient Descent (NGD) を利用した新しいアルゴリズムを提案する。 我々の理論的枠組みは凸モデルに対して強力なプライバシ保証を保証し,非凸モデルに対して実用的なMin/Max最適化アルゴリズムを開発した。 包括的評価は、最先端の手法と比較して、プライバシー、計算効率、一般化の大幅な改善を示し、マシン・アンラーニングの理論的側面と実践的側面の両方を前進させる。

We address the challenge of efficiently and reliably deleting data from machine learning models trained using Empirical Risk Minimization (ERM), a process known as machine unlearning. To avoid retraining models from scratch, we propose a novel algorithm leveraging Natural Gradient Descent (NGD). Our theoretical framework ensures strong privacy guarantees for convex models, while a practical Min/Max optimization algorithm is developed for non-convex models. Comprehensive evaluations show significant improvements in privacy, computational efficiency, and generalization compared to state-of-the-art methods, advancing both the theoretical and practical aspects of machine unlearning.
翻訳日:2024-07-12 18:58:33 公開日:2024-07-11
# Foundation Model Engineering: Engineering Foundation Models as Engineering Software

Foundation Model Engineering: Engineering Foundation Models Just as Engineering Software ( http://arxiv.org/abs/2407.08176v1 )

ライセンス: Link先を確認
Dezhi Ran, Mengzhou Wu, Wei Yang, Tao Xie, (参考訳) データとモデルをソースコードとして扱うことで、ファンデーションモデル(FM)は新しいタイプのソフトウェアになる。 ソフトウェア危機の概念を反映して、FMの複雑さの増大により、FM危機は今後10年で明らかな懸念となり、ソフトウェア工学の分野からの新しい理論や方法論をアピールする。 本稿では,原則的手法によるFM危機に対する戦略的対応であるファンデーション・モデル・エンジニアリングの導入というビジョンを概説する。 FMエンジニアリングは、データとモデル管理の両方のための宣言的、自動化され、統一されたプログラミングインターフェースを導入し、より構造化され直感的なプロセスを提供することで、FMの開発とアプリケーションの潜在的な問題を緩和することを目的としている。 FMエンジニアリングの確立を通じて、我々は、緊急の課題に対処する堅牢で自動化され、拡張可能なフレームワークの提供と、ソフトウェア工学分野における新たな研究機会の発見を目指しています。

By treating data and models as the source code, Foundation Models (FMs) become a new type of software. Mirroring the concept of software crisis, the increasing complexity of FMs making FM crisis a tangible concern in the coming decade, appealing for new theories and methodologies from the field of software engineering. In this paper, we outline our vision of introducing Foundation Model (FM) engineering, a strategic response to the anticipated FM crisis with principled engineering methodologies. FM engineering aims to mitigate potential issues in FM development and application through the introduction of declarative, automated, and unified programming interfaces for both data and model management, reducing the complexities involved in working with FMs by providing a more structured and intuitive process for developers. Through the establishment of FM engineering, we aim to provide a robust, automated, and extensible framework that addresses the imminent challenges, and discovering new research opportunities for the software engineering field.
翻訳日:2024-07-12 18:58:33 公開日:2024-07-11
# CoGS:ゴール指向ASP.NETを使用した因果性制約のある非現実的説明

CoGS: Causality Constrained Counterfactual Explanations using goal-directed ASP ( http://arxiv.org/abs/2407.08179v1 )

ライセンス: Link先を確認
Sopam Dasgupta, Joaquín Arias, Elmer Salazar, Gopal Gupta, (参考訳) 機械学習モデルは、ローンの承認や雇用といった分野ではますます使われていますが、ブラックボックスとして機能し、意思決定プロセスを見落としています。 透明性は不可欠であり、特にユーザが望まないものについては、個人が意思決定を理解するために説明が必要である。 倫理的および法的考察は、ユーザーにとって望ましい結果をもたらす可能性のある入力属性値(機能)の変化を個人に通知する必要がある。 本研究は,特徴間の因果関係を考慮し,反実的説明を生み出すことを目的としている。 本稿では,目標指向型Answer Set Programming System s(CASP)を利用したCoGS(Counterfactual Generation with s(CASP))フレームワークを提案する。 CoGSは、それらの間の因果依存性を考慮した属性値に対する現実的かつ因果一貫性のある変更を計算します。 望ましくない結果から、偽物を使用する望ましい結果への道を見つける。 本稿では,CoGSフレームワークの詳細と評価について述べる。

Machine learning models are increasingly used in areas such as loan approvals and hiring, yet they often function as black boxes, obscuring their decision-making processes. Transparency is crucial, and individuals need explanations to understand decisions, especially for the ones not desired by the user. Ethical and legal considerations require informing individuals of changes in input attribute values (features) that could lead to a desired outcome for the user. Our work aims to generate counterfactual explanations by considering causal dependencies between features. We present the CoGS (Counterfactual Generation with s(CASP)) framework that utilizes the goal-directed Answer Set Programming system s(CASP) to generate counterfactuals from rule-based machine learning models, specifically the FOLD-SE algorithm. CoGS computes realistic and causally consistent changes to attribute values taking causal dependencies between them into account. It finds a path from an undesired outcome to a desired one using counterfactuals. We present details of the CoGS framework along with its evaluation.
翻訳日:2024-07-12 18:58:33 公開日:2024-07-11
# テキストを超えて: マルチタスク学習と認知的評価理論を応用したPurchase Intention Analysis

Beyond Text: Leveraging Multi-Task Learning and Cognitive Appraisal Theory for Post-Purchase Intention Analysis ( http://arxiv.org/abs/2407.08182v1 )

ライセンス: Link先を確認
Gerard Christopher Yeo, Shaz Furniturewala, Kokil Jaidka, (参考訳) ユーザの振る舞いを予測するための機械学習モデルは、他のテキスト分類タスクよりも平均予測性能スコアが低いという挑戦的な分類問題をもたらす。 本研究では,認知的評価理論に基づくマルチタスク学習フレームワークの評価を行い,ユーザの自己表現と心理的属性の関数としてユーザ行動を予測する。 実験の結果, ユーザの言語や特徴は, テキストのみから予測するモデル以上の予測を改善することがわかった。 本研究は, ユーザ行動の理解と予測を高めるために, NLPに心理的構成要素を統合することの重要性を強調した。 計算心理学における大規模言語モデルの将来的応用の意義について論じる。

Supervised machine-learning models for predicting user behavior offer a challenging classification problem with lower average prediction performance scores than other text classification tasks. This study evaluates multi-task learning frameworks grounded in Cognitive Appraisal Theory to predict user behavior as a function of users' self-expression and psychological attributes. Our experiments show that users' language and traits improve predictions above and beyond models predicting only from text. Our findings highlight the importance of integrating psychological constructs into NLP to enhance the understanding and prediction of user actions. We close with a discussion of the implications for future applications of large language models for computational psychology.
翻訳日:2024-07-12 18:58:33 公開日:2024-07-11
# Web Censorship Probe List の自動生成

Automatic Generation of Web Censorship Probe Lists ( http://arxiv.org/abs/2407.08185v1 )

ライセンス: Link先を確認
Jenny Tang, Leo Alvarez, Arjun Brar, Nguyen Phong Hoang, Nicolas Christin, (参考訳) ドメイン・プローブ・リストは、Web検閲を調査するURLを決定するために使われ、インターネット検閲測定研究において重要な役割を果たす。 実際、ドメインプローブリストのサイズと精度は、検出可能な検閲ページのセットを制限する。 それまでのドメインプローブリストの生成作業は,大部分が手作業あるいはクラウドソースによるものだった。 このアプローチは時間がかかり、エラーを起こしやすいため、検閲の状況が変わらず変化するのに対して、十分にスケールできない。 本稿では,Web検閲計測のための包括的かつ最新のプローブリストの自動生成手法について検討する。 まず、さまざまな言語のページからなる既存のテストリストから139,957個のユニークなURLの最初のセットから始め、新しい候補ページを生成する。 これらのURLからコンテンツ(トピックとキーワード抽出)を分析し、これらのトピックを拡張し、検索エンジンへのフィードとして使用することにより、35,147個のドメインに119,255個の新しいURLを生成する。 次に、新しい候補ページをテストし、11の異なるグローバルロケーションのサーバから各URLにアクセスして、接続性や検閲の兆候を確認する。 提案手法により,元のデータセットには存在しない1,400以上のドメインが検出された。 簡単に言うと、プローブリストを自動的に更新することは可能であり、大規模な検閲測定の自動化に役立てることができる。

Domain probe lists--used to determine which URLs to probe for Web censorship--play a critical role in Internet censorship measurement studies. Indeed, the size and accuracy of the domain probe list limits the set of censored pages that can be detected; inaccurate lists can lead to an incomplete view of the censorship landscape or biased results. Previous efforts to generate domain probe lists have been mostly manual or crowdsourced. This approach is time-consuming, prone to errors, and does not scale well to the ever-changing censorship landscape. In this paper, we explore methods for automatically generating probe lists that are both comprehensive and up-to-date for Web censorship measurement. We start from an initial set of 139,957 unique URLs from various existing test lists consisting of pages from a variety of languages to generate new candidate pages. By analyzing content from these URLs (i.e., performing topic and keyword extraction), expanding these topics, and using them as a feed to search engines, our method produces 119,255 new URLs across 35,147 domains. We then test the new candidate pages by attempting to access each URL from servers in eleven different global locations over a span of four months to check for their connectivity and potential signs of censorship. Our measurements reveal that our method discovered over 1,400 domains--not present in the original dataset--we suspect to be blocked. In short, automatically updating probe lists is possible, and can help further automate censorship measurements at scale.
翻訳日:2024-07-12 18:58:33 公開日:2024-07-11
# 貯水池工学オポマグノメカニクスによるマグノンのスクイーズ

Magnon squeezing via reservoir-engineered optomagnomechanics ( http://arxiv.org/abs/2407.08186v1 )

ライセンス: Link先を確認
Zhi-Yuan Fan, Huai-Bing Zhu, Hao-Tian Li, Jie Li, (参考訳) 磁歪による機械的変位が放射圧を介して光学的キャビティに結合するオポマノメカニカルシステムにおいて,マグノニック圧縮状態の調製方法を示す。 マグノメカニカルカップリングが線形か分散的かによっては2つのシナリオを論じる。 どちらの場合も、光学キャビティの2トーン駆動により得られる強いメカニカルスクイーズを効率よくマグノンモードに転送できることが示される。 線形カップリングの場合、定常マグノンスクイーズを行い、分散カップリングケースでは、2段階のプロトコルで一過性マグノンスクイーズ状態を作成する。 提案したマグノン圧縮状態は、マグノンを用いた量子情報処理と量子センシングに有望な応用を見出す。

We show how to prepare magnonic squeezed states in an optomagnomechanical system, in which magnetostriction induced mechanical displacement couples to an optical cavity via radiation pressure. We discuss two scenarios depending on whether the magnomechanical coupling is linear or dispersive. We show that in both cases the strong mechanical squeezing obtained via two-tone driving of the optical cavity can be efficiently transferred to the magnon mode. In the linear coupling case, stationary magnon squeezing is achieved; while in the dispersive coupling case, a transient magnonic squeezed state is prepared in a two-step protocol. The proposed magnonic squeezed states find promising applications in quantum information processing and quantum sensing using magnons.
翻訳日:2024-07-12 18:58:33 公開日:2024-07-11
# ScaleDepth: メトリック深さ推定をスケール予測と相対深さ推定に分解する

ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation ( http://arxiv.org/abs/2407.08187v1 )

ライセンス: Link先を確認
Ruijie Zhu, Chuxin Wang, Ziyang Song, Li Liu, Tianzhu Zhang, Yongdong Zhang, (参考訳) 一つの画像から深度を推定することは難しい視覚課題である。 相対的な深度推定と比較すると、実際の物理的重要性と実生活シナリオにおける重要な応用により、メートル法深度推定がより注目される。 しかし、既存の計量深度推定法は、通常、類似したシーンを持つ特定のデータセットで訓練され、大きなスケールのバリエーションを持つシーンを一般化する際の課題に直面している。 この課題に対処するために,ScaleDepthと呼ばれる新しい単分子深度推定法を提案する。 本手法は, 距離深度をシーンスケールと相対深度に分解し, 意味認識スケール予測(SASP)モジュールと適応相対深度推定(ARDE)モジュールで予測する。 提案されているScaleDepthにはいくつかのメリットがある。 まず、SASPモジュールは、画像の構造的特徴と意味的特徴を暗黙的に組み合わせて、正確なシーンスケールを予測する。 第2に、ARDEモジュールは、正規化深度空間内の各画像の相対深度分布を適応的に推定することができる。 第3に,本手法は,奥行き範囲や微調整モデルの設定を必要とせず,室内と屋外の両方のシーンを統一した枠組みで距離推定する。 広汎な実験により,室内,屋外,非拘束,見えない場面にまたがって,最先端のパフォーマンスを実現することができた。 プロジェクトページ:https://ruijiezhu94.github.io/ScaleDepth

Estimating depth from a single image is a challenging visual task. Compared to relative depth estimation, metric depth estimation attracts more attention due to its practical physical significance and critical applications in real-life scenarios. However, existing metric depth estimation methods are typically trained on specific datasets with similar scenes, facing challenges in generalizing across scenes with significant scale variations. To address this challenge, we propose a novel monocular depth estimation method called ScaleDepth. Our method decomposes metric depth into scene scale and relative depth, and predicts them through a semantic-aware scale prediction (SASP) module and an adaptive relative depth estimation (ARDE) module, respectively. The proposed ScaleDepth enjoys several merits. First, the SASP module can implicitly combine structural and semantic features of the images to predict precise scene scales. Second, the ARDE module can adaptively estimate the relative depth distribution of each image within a normalized depth space. Third, our method achieves metric depth estimation for both indoor and outdoor scenes in a unified framework, without the need for setting the depth range or fine-tuning model. Extensive experiments demonstrate that our method attains state-of-the-art performance across indoor, outdoor, unconstrained, and unseen scenes. Project page: https://ruijiezhu94.github.io/ScaleDepth
翻訳日:2024-07-12 18:48:48 公開日:2024-07-11
# 位置: データセットの多様性を計測する、単に主張するな

Position: Measure Dataset Diversity, Don't Just Claim It ( http://arxiv.org/abs/2407.08188v1 )

ライセンス: Link先を確認
Dora Zhao, Jerone T. A. Andrews, Orestis Papakyriakopoulos, Alice Xiang, (参考訳) 機械学習(ML)データセットは、しばしば中立的と見なされ、本質的に抽象的で議論の多かった社会構造をカプセル化している。 データセットキュレーターは、データセットを特徴付けるために、多様性、バイアス、品質といった、価値に富んだ用語を頻繁に使用します。 それらの流行にもかかわらず、これらの用語には明確な定義と検証が欠けている。 本研究は,135の画像データセットとテキストデータセットにまたがる「多様性」を分析し,この問題の意義を考察する。 社会科学を参考に,評価理論の原則を適用し,データセットの多様性を概念化し,運用し,評価するための推奨事項を提供する。 我々の研究はML研究に幅広い意味を持ち、データセット構築において、より微妙で正確な特性を扱うためのアプローチを提唱している。

Machine learning (ML) datasets, often perceived as neutral, inherently encapsulate abstract and disputed social constructs. Dataset curators frequently employ value-laden terms such as diversity, bias, and quality to characterize datasets. Despite their prevalence, these terms lack clear definitions and validation. Our research explores the implications of this issue by analyzing "diversity" across 135 image and text datasets. Drawing from social sciences, we apply principles from measurement theory to identify considerations and offer recommendations for conceptualizing, operationalizing, and evaluating diversity in datasets. Our findings have broader implications for ML research, advocating for a more nuanced and precise approach to handling value-laden properties in dataset construction.
翻訳日:2024-07-12 18:48:48 公開日:2024-07-11
# fairBERTs: 意味と公正を意識した摂動を通じて知覚情報を消去する

fairBERTs: Erasing Sensitive Information Through Semantic and Fairness-aware Perturbations ( http://arxiv.org/abs/2407.08189v1 )

ライセンス: Link先を確認
Jinfeng Li, Yuefeng Chen, Xiangyu Liu, Longtao Huang, Rong Zhang, Hui Xue, (参考訳) プレトレーニング言語モデル(PLM)は自然言語処理の研究と応用の両方に革命をもたらした。 しかし、PLMに符号化されたステレオタイプバイアス(例えば、性別や人種差別)は、PLMに否定的な倫理的影響を生じさせ、その幅広い応用を批判的に制限している。 上記の不公平性問題に対処するために、生成的敵ネットワークによって生成される意味的および公平性に配慮した摂動を通じて、保護されたセンシティブな情報を消去することで、公平に調整されたBERTシリーズモデルを学習するための一般的なフレームワークである FairBERT を提案する。 実世界の2つのタスクの定性的かつ定量的な実験を通じて、モデルの実用性を維持しながら不公平さを緩和するフェアバーティの優れた優位性を実証する。 また、フェアネス改善を実現するために、他のトレーニングされたBERT様モデルに、フェアBERTの逆成分を転送する可能性についても検証した。 我々の発見は、より精巧なPLMの構築に関するさらなる研究に光を当てるかもしれない。

Pre-trained language models (PLMs) have revolutionized both the natural language processing research and applications. However, stereotypical biases (e.g., gender and racial discrimination) encoded in PLMs have raised negative ethical implications for PLMs, which critically limits their broader applications. To address the aforementioned unfairness issues, we present fairBERTs, a general framework for learning fair fine-tuned BERT series models by erasing the protected sensitive information via semantic and fairness-aware perturbations generated by a generative adversarial network. Through extensive qualitative and quantitative experiments on two real-world tasks, we demonstrate the great superiority of fairBERTs in mitigating unfairness while maintaining the model utility. We also verify the feasibility of transferring adversarial components in fairBERTs to other conventionally trained BERT-like models for yielding fairness improvements. Our findings may shed light on further research on building fairer fine-tuned PLMs.
翻訳日:2024-07-12 18:48:48 公開日:2024-07-11
# ARCO:DNN加速器設計における性能向上のための適応型マルチエージェント強化学習ベースハードウェア/ソフトウェア共最適化コンパイラ

ARCO:Adaptive Multi-Agent Reinforcement Learning-Based Hardware/Software Co-Optimization Compiler for Improved Performance in DNN Accelerator Design ( http://arxiv.org/abs/2407.08192v1 )

ライセンス: Link先を確認
Arya Fayyazi, Mehdi Kamal, Massoud Pedram, (参考訳) 本稿では,MLモデル(Deep Neural Networks (DNN) など)の多種多様なハードウェアプラットフォームへのマッピング効率の向上を目的とした,適応型マルチエージェント強化学習(MARL)ベースの協調最適化コンパイルフレームワークであるARCOを提案する。 このフレームワークは、MARL内に3つの特別なアクター批判エージェントを組み込んでおり、それぞれが抽象レベルでコンパイル/最適化の異なる側面に特化している: 1つのエージェントはハードウェアに焦点を当て、2つのエージェントはソフトウェア最適化に焦点を当てている。 この統合により、DNNデプロイメントの精度とスピードを改善するハードウェア/ソフトウェアの共同最適化戦略が実現される。 高信頼度構成に集中することで、探索空間が簡単になり、現在の最適化手法よりも優れた性能が得られる。 ARCOフレームワークは既存の主要なフレームワークを超え、スループットを最大37.95%向上させ、最適化時間を様々なDNNで最大42.2%削減した。

This paper presents ARCO, an adaptive Multi-Agent Reinforcement Learning (MARL)-based co-optimizing compilation framework designed to enhance the efficiency of mapping machine learning (ML) models - such as Deep Neural Networks (DNNs) - onto diverse hardware platforms. The framework incorporates three specialized actor-critic agents within MARL, each dedicated to a distinct aspect of compilation/optimization at an abstract level: one agent focuses on hardware, while two agents focus on software optimizations. This integration results in a collaborative hardware/software co-optimization strategy that improves the precision and speed of DNN deployments. Concentrating on high-confidence configurations simplifies the search space and delivers superior performance compared to current optimization methods. The ARCO framework surpasses existing leading frameworks, achieving a throughput increase of up to 37.95% while reducing the optimization time by up to 42.2% across various DNNs.
翻訳日:2024-07-12 18:48:48 公開日:2024-07-11
# Rydberg 原子配列による創発的時空超対称性の発見

Uncovering Emergent Spacetime Supersymmetry with Rydberg Atom Arrays ( http://arxiv.org/abs/2407.08194v1 )

ライセンス: Link先を確認
Chengshu Li, Shang Liu, Hanteng Wang, Wenjun Zhang, Zi-Xiang Li, Hui Zhai, Yingfei Gu, (参考訳) 量子多体物理学における創発対称性の動物園では、これまで実現されていなかった創発時空超対称性(SUSY)が特に興味深い。 時空SUSYは (1+1)d三臨界イジング遷移で現れることが知られているが、実験的な実現はいまだに存在しない。 本稿では,Rydberg 原子配列を用いた三臨界イジング遷移の実現について提案する。 このような系では、時空 SUSY はボソニックモードとそのフェルミオンパートナーの相関関数に自身を表わす。 しかし、フェルミオンモードの相関関数は必然的に弦演算子を伴い、従来の設定では直接測定が難しい。 ここでは、物理ハミルトニアンをシミュレートし、同じプラットフォーム上でデジタル量子回路を実行するRydberg原子配列のアナログ-デジタルハイブリッド特性を用いて、フェルミオンモードの相関関数を測定する。 このハイブリッド化プロトコルは、三臨界イジング遷移で現れる時空SUSYの隠れ構造を明らかにする実験的に実現可能な方法を提供する。

In the zoo of emergent symmetries in quantum many-body physics, the previously unrealized emergent spacetime supersymmetry (SUSY) is particularly intriguing. Although it was known that spacetime SUSY could emerge at the (1+1)d tricritical Ising transition, an experimental realization is still absent. In this letter, we propose to realize the tricritical Ising transition with Rydberg atom arrays, taking advantage of the reconfigurability of these systems. In such systems, the spacetime SUSY manifests itself in the respective correlation functions of a bosonic mode and its fermionic partner. However, the correlation function of the fermionic mode inevitably involves a string operator, making direct measurement challenging in the conventional setting. Here, we utilize the analog--digital hybrid nature of the Rydberg atom arrays, which can simulate a physical Hamiltonian and perform a digital quantum circuit on the same platform, to measure the correlation function of the fermionic mode. This hybridized protocol provides an experimentally feasible way to reveal the hidden structure of the spacetime SUSY that emerges at the tricritical Ising transition.
翻訳日:2024-07-12 18:48:48 公開日:2024-07-11
# UGCベースのロールプレイングゲームのためのテキスト・ツー・ゲームエンジン

A Text-to-Game Engine for UGC-Based Role-Playing Games ( http://arxiv.org/abs/2407.08195v1 )

ライセンス: Link先を確認
Lei Zhang, Xuezheng Peng, Shuyi Yang, Feiyang Wang, (参考訳) プロフェッショナル生成コンテンツ(PGC)からユーザ生成コンテンツ(UGC)への移行は、テキストからビデオまで、さまざまなメディアフォーマットに革命をもたらした。 生成AIの急速な進歩により、ゲーム産業、特にロールプレイングゲーム(RPG)の領域において、同様のシフトが設定されている。 本稿では,単純なテキスト入力を複雑でインタラクティブなRPG体験に変換する基礎モデルを用いたテキスト・ツー・ゲームエンジンの新しいフレームワークを提案する。 エンジンは、ゲームストーリーをマルチモーダル形式で動的にレンダリングし、プレイヤアクションに応じて、ゲームキャラクタ、環境、メカニックをリアルタイムで調整する。 このフレームワークを用いて,様々なジャンルにわたるRPGゲーム数百のゲームをサポートし,数万のオンラインユーザゲームインスタンスを円滑に支援する「ザギイ」ゲームエンジンを開発した。 これにより、我々のフレームワークの有効性が検証される。 私たちの研究は、よりオープンで民主化されたゲームパラダイムの可能性を示し、生成AIがゲームライフサイクルに与える影響を強調します。

The shift from professionally generated content (PGC) to user-generated content (UGC) has revolutionized various media formats, from text to video. With the rapid advancements in generative AI, a similar shift is set to transform the game industry, particularly in the realm of role-playing games (RPGs). This paper introduces a new framework for a text-to-game engine that utilizes foundation models to convert simple textual inputs into complex, interactive RPG experiences. The engine dynamically renders the game story in a multi-modal format and adjusts the game character, environment, and mechanics in real-time in response to player actions. Using this framework, we developed the "Zagii" game engine, which has successfully supported hundreds of RPG games across a diverse range of genres and facilitated tens of thousands of online user gameplay instances. This validates the effectiveness of our frame-work. Our work showcases the potential for a more open and democratized gaming paradigm, highlighting the transformative impact of generative AI on the game life cycle.
翻訳日:2024-07-12 18:48:48 公開日:2024-07-11
# SoupLM: 大規模言語とマルチモーダルモデルにおけるモデル統合

SoupLM: Model Integration in Large Language and Multi-Modal Models ( http://arxiv.org/abs/2407.08196v1 )

ライセンス: Link先を確認
Yue Bai, Zichen Zhang, Jiasen Lu, Yun Fu, (参考訳) 大規模言語モデル (LLM) とマルチモーダル LLM の訓練は重要な計算資源を必要とし、既存の一般公開 LLM は様々なタスクにまたがる多種多様なプライベートなデータセットで事前訓練される。 例えば、LLaMA、Vicuna、LLaVAは、LLaMAベースモデルでトレーニングされた3つのLLM変種である。 LLM変種に対するトレーニングコストと複雑さは急速に増大する。 本研究では,これらのLSM変異体を,コスト効率のよい単一汎用マルチモーダルLSM(SoupLM)に組み立てるためのスープ戦略を提案する。 これらのLLM変種を組み込むことで、異なるドメインとデータモダリティから訓練された知識と専門性を統合されたもの(例えば、Vicunaのユーザ共有会話からのチャットボット特化、LLaVAの視覚言語データからの視覚能力)に効率よく組み込むことで、複数のドメインで繰り返しトレーニングを行う際の計算コストを回避することができる。 そこで本研究では,様々な構成におけるパフォーマンス向上を体系的に評価するための一連のスープ戦略を提案し,補間空間におけるベースモデル間のスープ挙動を探索する。

Training large language models (LLMs) and multimodal LLMs necessitates significant computing resources, and existing publicly available LLMs are typically pre-trained on diverse, privately curated datasets spanning various tasks. For instance, LLaMA, Vicuna, and LLaVA are three LLM variants trained with LLaMA base models using very different training recipes, tasks, and data modalities. The training cost and complexity for such LLM variants grow rapidly. In this study, we propose to use a soup strategy to assemble these LLM variants into a single well-generalized multimodal LLM (SoupLM) in a cost-efficient manner. Assembling these LLM variants efficiently brings knowledge and specialities trained from different domains and data modalities into an integrated one (e.g., chatbot speciality from user-shared conversations for Vicuna, and visual capacity from vision-language data for LLaVA), therefore, to avoid computing costs of repetitive training on several different domains. We propose series of soup strategies to systematically benchmark performance gains across various configurations, and probe the soup behavior across base models in the interpolation space.
翻訳日:2024-07-12 18:48:48 公開日:2024-07-11
# SRPose: スパースキーポイントを用いた2視点相対ポース推定

SRPose: Two-view Relative Pose Estimation with Sparse Keypoints ( http://arxiv.org/abs/2407.08199v1 )

ライセンス: Link先を確認
Rui Yin, Yulun Zhang, Zherong Pan, Jianjun Zhu, Cheng Wang, Biao Jia, (参考訳) 2ビューポーズ推定は、地図のない視覚的再ローカライズとオブジェクトポーズ追跡タスクに不可欠である。 しかし、従来のマッチング手法は、時間を要する堅牢な推定器に悩まされ、ディープラーニングベースのポーズ回帰器は、カメラ間ポーズ推定にのみ対応し、画像サイズやカメラ固有の一般化性に欠ける。 本稿では,SRPoseを提案する。SRPoseは,カメラ・ツー・ワールドシナリオとオブジェクト・ツー・カメラシナリオにおける2視点相対ポーズ推定のためのスパースキーポイントベースのフレームワークである。 SRPoseはスパースキーポイント検出器、固有校正位置エンコーダ、知識誘導型アテンション層で構成されている。 固定シーンまたは移動物体の2つのRGB画像が与えられた場合、SRPoseは相対カメラまたは6Dオブジェクトのポーズ変換を推定する。 大規模な実験により、SRPoseは最先端の手法と比較して、精度と速度の面で競争力や優れた性能を達成し、両方のシナリオに一般化可能であることが示された。 さまざまな画像サイズやカメラ固有の機能に対して堅牢であり、低コンピューティングリソースでデプロイすることができる。

Two-view pose estimation is essential for map-free visual relocalization and object pose tracking tasks. However, traditional matching methods suffer from time-consuming robust estimators, while deep learning-based pose regressors only cater to camera-to-world pose estimation, lacking generalizability to different image sizes and camera intrinsics. In this paper, we propose SRPose, a sparse keypoint-based framework for two-view relative pose estimation in camera-to-world and object-to-camera scenarios. SRPose consists of a sparse keypoint detector, an intrinsic-calibration position encoder, and promptable prior knowledge-guided attention layers. Given two RGB images of a fixed scene or a moving object, SRPose estimates the relative camera or 6D object pose transformation. Extensive experiments demonstrate that SRPose achieves competitive or superior performance compared to state-of-the-art methods in terms of accuracy and speed, showing generalizability to both scenarios. It is robust to different image sizes and camera intrinsics, and can be deployed with low computing resources.
翻訳日:2024-07-12 18:48:48 公開日:2024-07-11
# サッカーマッチビデオの深い理解

Deep Understanding of Soccer Match Videos ( http://arxiv.org/abs/2407.08200v1 )

ライセンス: Link先を確認
Shikun Xu, Yandong Zhu, Gen Li, Changhu Wang, (参考訳) サッカーは世界中で最も人気のあるスポーツの1つであり、主要な試合で頻繁に放送される。 しかし、これらのビデオからプレイヤーのアクションに関する詳細なフレーム・バイ・フレーム情報を抽出することは依然として困難である。 我々のシステムは最先端のコンピュータビジョン技術を利用して、サッカーボール、選手、審判などの重要な物体を検出することができる。 また、プレイヤーとボールの動きを追跡し、プレイヤーの番号を認識し、シーンを分類し、ゴールキックのようなハイライトを識別する。 サッカーの試合のライブTVストリームを解析することにより、このシステムは、ハイライトGIF、戦術図、進行中のゲームの様々な要約グラフを生成することができる。 これらの視覚認識技術により、我々はサッカーゲームビデオの包括的理解を提供し、ディテールで洞察に富んだ分析によって視聴者の経験を豊かにする。

Soccer is one of the most popular sport worldwide, with live broadcasts frequently available for major matches. However, extracting detailed, frame-by-frame information on player actions from these videos remains a challenge. Utilizing state-of-the-art computer vision technologies, our system can detect key objects such as soccer balls, players and referees. It also tracks the movements of players and the ball, recognizes player numbers, classifies scenes, and identifies highlights such as goal kicks. By analyzing live TV streams of soccer matches, our system can generate highlight GIFs, tactical illustrations, and diverse summary graphs of ongoing games. Through these visual recognition techniques, we deliver a comprehensive understanding of soccer game videos, enriching the viewer's experience with detailed and insightful analysis.
翻訳日:2024-07-12 18:48:48 公開日:2024-07-11
# 相同性による染色体構造異常診断

Chromosomal Structural Abnormality Diagnosis by Homologous Similarity ( http://arxiv.org/abs/2407.08204v1 )

ライセンス: Link先を確認
Juren Li, Fanzhe Fu, Ran Wei, Yifei Sun, Zeyu Lai, Ning Song, Xin Chen, Yang Yang, (参考訳) 病原性染色体異常は一般人の間で非常に多い。 数値的な染色体異常は迅速かつ正確に検出できるが、構造的な染色体異常ははるかに複雑であり、典型的にはヒトの専門家による同定にはかなりの努力が必要である。 本稿では,染色体の特徴のモデル化と構造異常のある染色体の同定に焦点をあてる。 既存のデータ駆動法は、単一の染色体に集中し、各染色体を独立に考慮し、相同染色体の重要な側面を見越す。 正常な場合、相同染色体は同じ構造を持つが、そのうちの1つは異常である。 そこで本研究では,同種染色体をアライメントし,同種類似性を通じて構造異常を診断する適応手法を提案する。 人体鑑定のプロセスにインスパイアされ,複数対の同種染色体からの情報を同時に組み込むことにより,ノイズ障害の低減と予測性能の向上を図る。 実世界のデータセットに対する大規模な実験は、ベースラインと比較して、我々のモデルの有効性を検証する。

Pathogenic chromosome abnormalities are very common among the general population. While numerical chromosome abnormalities can be quickly and precisely detected, structural chromosome abnormalities are far more complex and typically require considerable efforts by human experts for identification. This paper focuses on investigating the modeling of chromosome features and the identification of chromosomes with structural abnormalities. Most existing data-driven methods concentrate on a single chromosome and consider each chromosome independently, overlooking the crucial aspect of homologous chromosomes. In normal cases, homologous chromosomes share identical structures, with the exception that one of them is abnormal. Therefore, we propose an adaptive method to align homologous chromosomes and diagnose structural abnormalities through homologous similarity. Inspired by the process of human expert diagnosis, we incorporate information from multiple pairs of homologous chromosomes simultaneously, aiming to reduce noise disturbance and improve prediction performance. Extensive experiments on real-world datasets validate the effectiveness of our model compared to baselines.
翻訳日:2024-07-12 18:48:48 公開日:2024-07-11
# OPIMA:畳み込みニューラルネットワーク高速化のための光処理インメモリ

OPIMA: Optical Processing-In-Memory for Convolutional Neural Network Acceleration ( http://arxiv.org/abs/2407.08205v1 )

ライセンス: Link先を確認
Febin Sunny, Amin Shafiee, Abhishek Balasubramaniam, Mahdi Nikdast, Sudeep Pasricha, (参考訳) 機械学習(ML)の最近の進歩は、メモリ帯域幅と処理能力のギャップを埋めるコンピューティングアーキテクチャの急激なニーズを浮き彫りにした。 ディープニューラルネットワークの出現により、従来のVon Neumannアーキテクチャは、これらのワークロードのプロセッサとメモリ間のデータ移動に伴うレイテンシとエネルギー消費コストのために、限界に達している。 このボトルネックを克服する解決策の1つは、PIM(Processing-in-Memory)を通じてメインメモリ内で計算を実行することで、データ移動とそれに関連するコストを制限することである。 しかし、DRAMベースのPIMは、内部データ移動のボトルネックと頻繁なリフレッシュ操作の必要性により、高いスループットとエネルギー効率を達成するのに苦労している。 本稿では,PIMベースのMLアクセラレータであるOPIMAについて紹介する。 OPIMAは、畳み込みニューラルネットワークに基づくMLモデルを高速化するために、高速で低エネルギーの光学計算を実行しながら、メインメモリ内の固有の巨大な並列性を活用するように設計されている。 本稿では,OPIMAの総合的な分析を行い,設計選択と運用メカニズムについて考察する。 さらに,OPIMAの性能とエネルギー消費を評価し,従来の電子計算機システムや新しいフォトニックPIMアーキテクチャと比較した。 実験の結果,OPIMAのスループットは2.98倍,エネルギー効率は137倍に向上した。

Recent advances in machine learning (ML) have spotlighted the pressing need for computing architectures that bridge the gap between memory bandwidth and processing power. The advent of deep neural networks has pushed traditional Von Neumann architectures to their limits due to the high latency and energy consumption costs associated with data movement between the processor and memory for these workloads. One of the solutions to overcome this bottleneck is to perform computation within the main memory through processing-in-memory (PIM), thereby limiting data movement and the costs associated with it. However, DRAM-based PIM struggles to achieve high throughput and energy efficiency due to internal data movement bottlenecks and the need for frequent refresh operations. In this work, we introduce OPIMA, a PIM-based ML accelerator, architected within an optical main memory. OPIMA has been designed to leverage the inherent massive parallelism within main memory while performing high-speed, low-energy optical computation to accelerate ML models based on convolutional neural networks. We present a comprehensive analysis of OPIMA to guide design choices and operational mechanisms. Additionally, we evaluate the performance and energy consumption of OPIMA, comparing it with conventional electronic computing systems and emerging photonic PIM architectures. The experimental results show that OPIMA can achieve 2.98x higher throughput and 137x better energy efficiency than the best-known prior work.
翻訳日:2024-07-12 18:48:48 公開日:2024-07-11
# CCL24-Eval Task 7のシステム報告:中国語評価のためのマルチエラーモデリングと周波数目標事前学習

System Report for CCL24-Eval Task 7: Multi-Error Modeling and Fluency-Targeted Pre-training for Chinese Essay Evaluation ( http://arxiv.org/abs/2407.08206v1 )

ライセンス: Link先を確認
Jingshen Zhang, Xiangyu Yang, Xinkai Su, Xinglu Chen, Tianyou Huang, Xinying Qiu, (参考訳) 本報告では,CCL-2024におけるCEFEタスクに対する我々のアプローチと結果について述べる。 トラック1では,中国語Learner 4Wコーパス上で,バイナリ分類モデルと訓練された粗粒度モデルを用いて,微粒度エラーの予測を最適化した。 トラック2では、文毎に複数のエラー型を持つ擬似データセットを構築することにより、性能を向上した。 1位となったトラック3では,事前学習のための逆変換による流速評価擬似データを生成し,Symmetric Cross Entropy損失を用いたNSPベースの戦略を用いて,コンテキストのキャプチャと長期依存性の軽減を行った。 提案手法は,中国におけるEssay Fluency Evaluationの課題に効果的に対処する。

This system report presents our approaches and results for the Chinese Essay Fluency Evaluation (CEFE) task at CCL-2024. For Track 1, we optimized predictions for challenging fine-grained error types using binary classification models and trained coarse-grained models on the Chinese Learner 4W corpus. In Track 2, we enhanced performance by constructing a pseudo-dataset with multiple error types per sentence. For Track 3, where we achieved first place, we generated fluency-rated pseudo-data via back-translation for pre-training and used an NSP-based strategy with Symmetric Cross Entropy loss to capture context and mitigate long dependencies. Our methods effectively address key challenges in Chinese Essay Fluency Evaluation.
翻訳日:2024-07-12 18:48:48 公開日:2024-07-11
# 曲線オブジェクトセグメンテーションデータセットの拡張における情報強化とセマンティック一貫性の保存

Enriching Information and Preserving Semantic Consistency in Expanding Curvilinear Object Segmentation Datasets ( http://arxiv.org/abs/2407.08209v1 )

ライセンス: Link先を確認
Qin Lei, Jiang Zhong, Qizhu Dai, (参考訳) キュビリニアオブジェクトセグメンテーションは、様々なアプリケーションにおいて重要な役割を果たすが、この領域のデータセットは、データ取得やアノテーションに関連するコストが高いため、小さなスケールで悩まされることが多い。 これらの課題に対処するため,本論文では,生成したデータの情報性の向上と意味マップと生成した画像との整合性に着目し,カービリニアオブジェクトセグメンテーションデータセットを拡張するための新しいアプローチを提案する。 本手法は,複数のテキスト特徴量からカービリニアオブジェクトを生成することによって,合成データの情報性が向上する。 原データセットの各サンプルのテキスト特徴を組み合わせることで,原データセットの分布を超える合成画像を得る。 このイニシアチブは、テキスト生成(COSTG)データセットに基づいたCurvilinear Object Segmentationの作成を必要とした。 COSTGは従来のデータセットの制限を超えるように設計されており、標準的なセマンティックマップだけでなく、カービ線形オブジェクトの特徴のテキスト記述も含んでいる。 合成意味マップと画像の整合性を確保するために,セマンティック一貫性保存制御ネット(SCP ControlNet)を導入する。 ControlNetをSPADE(Spatially-Adaptive Normalization)に適応させることで、通常、正規化層に洗い流されるセマンティック情報を保存できる。 この修正により、より正確なセマンティック画像合成が容易になる。 実験の結果,3種類の曲線オブジェクト(血管造影,クラック,網膜)と6つの公開データセット(CHUAC,XCAD,DCA1,DRIVE,CHASEDB1,Crack500)に対するアプローチの有効性が示された。 提案手法により生成された合成データは,データセットを拡大するだけでなく,他の曲線オブジェクトセグメンテーションモデルの性能も効果的に向上する。 ソースコードとデータセットは \url{https://github.com/tanlei0/COSTG} で入手できる。

Curvilinear object segmentation plays a crucial role across various applications, yet datasets in this domain often suffer from small scale due to the high costs associated with data acquisition and annotation. To address these challenges, this paper introduces a novel approach for expanding curvilinear object segmentation datasets, focusing on enhancing the informativeness of generated data and the consistency between semantic maps and generated images. Our method enriches synthetic data informativeness by generating curvilinear objects through their multiple textual features. By combining textual features from each sample in original dataset, we obtain synthetic images that beyond the original dataset's distribution. This initiative necessitated the creation of the Curvilinear Object Segmentation based on Text Generation (COSTG) dataset. Designed to surpass the limitations of conventional datasets, COSTG incorporates not only standard semantic maps but also some textual descriptions of curvilinear object features. To ensure consistency between synthetic semantic maps and images, we introduce the Semantic Consistency Preserving ControlNet (SCP ControlNet). This involves an adaptation of ControlNet with Spatially-Adaptive Normalization (SPADE), allowing it to preserve semantic information that would typically be washed away in normalization layers. This modification facilitates more accurate semantic image synthesis. Experimental results demonstrate the efficacy of our approach across three types of curvilinear objects (angiography, crack and retina) and six public datasets (CHUAC, XCAD, DCA1, DRIVE, CHASEDB1 and Crack500). The synthetic data generated by our method not only expand the dataset, but also effectively improves the performance of other curvilinear object segmentation models. Source code and dataset are available at \url{https://github.com/tanlei0/COSTG}.
翻訳日:2024-07-12 18:48:48 公開日:2024-07-11
# 並列連続学習の安定学習に向けて

Towards stable training of parallel continual learning ( http://arxiv.org/abs/2407.08214v1 )

ライセンス: Link先を確認
Li Yuepan, Fan Lyu, Yuyang Li, Wei Feng, Guangcan Liu, Fanhua Shang, (参考訳) 並列連続学習(PCL)タスクは、マルチソース入力を用いて連続学習の訓練方法を調べる。 PCLは訓練効率が高く、複数のセンサーを備えた自動運転車のような複雑なマルチソースデータシステムに適している。 しかし、常に複数のタスクを同時にトレーニングする必要があるため、PCLの厳しいトレーニング不安定が生じる。 この不安定性は、特徴が絡み合っており、勾配が矛盾する前向きと後向きの両方の伝播の間に現れます。 本稿では,PCLの学習安定性を高める新しい手法として,SPCL(Stable Parallel Continual Learning)を提案する。 前方伝搬では,Douubly-block Toeplit (DBT) 行列に基づく直交制約をネットワークパラメータに適用し,安定かつ一貫した伝搬を保証する。 後ろ向きの伝搬には直交分解を用いて, 逆伝播を安定化し, タスク間の勾配衝突を緩和する。 直交性を確保し、条件数を最小限にすることで勾配を最適化することにより、SPCLは複雑な最適化タスクにおける勾配降下を効果的に安定化する。 実験の結果,SPCLは最先端のメスヨードより優れ,訓練安定性が向上した。

Parallel Continual Learning (PCL) tasks investigate the training methods for continual learning with multi-source input, where data from different tasks are learned as they arrive. PCL offers high training efficiency and is well-suited for complex multi-source data systems, such as autonomous vehicles equipped with multiple sensors. However, at any time, multiple tasks need to be trained simultaneously, leading to severe training instability in PCL. This instability manifests during both forward and backward propagation, where features are entangled and gradients are conflict. This paper introduces Stable Parallel Continual Learning (SPCL), a novel approach that enhances the training stability of PCL for both forward and backward propagation. For the forward propagation, we apply Doubly-block Toeplit (DBT) Matrix based orthogonality constraints to network parameters to ensure stable and consistent propagation. For the backward propagation, we employ orthogonal decomposition for gradient management stabilizes backpropagation and mitigates gradient conflicts across tasks. By optimizing gradients by ensuring orthogonality and minimizing the condition number, SPCL effectively stabilizing the gradient descent in complex optimization tasks. Experimental results demonstrate that SPCL outperforms state-of-the-art methjods and achieve better training stability.
翻訳日:2024-07-12 18:48:48 公開日:2024-07-11
# 日々のストレスモニタリングにおけるパフォーマンス向上とユーザエンゲージメント: 文脈認識型アクティブ強化学習アプローチ

Enhancing Performance and User Engagement in Everyday Stress Monitoring: A Context-Aware Active Reinforcement Learning Approach ( http://arxiv.org/abs/2407.08215v1 )

ライセンス: Link先を確認
Seyed Amir Hossein Aqajari, Ziyu Wang, Ali Tazarv, Sina Labbaf, Salar Jafarlou, Brenda Nguyen, Nikil Dutt, Marco Levorato, Amir M. Rahmani, (参考訳) 今日のペースの速い世界では、ストレスレベルを正確に監視することが重要です。 センサベースのストレス監視システムは、効果的なモデルをトレーニングするために大きなデータセットを必要とすることが多い。 しかし、個人固有のモデルは、パーソナライズされた対話的なシナリオに必要である。 Ecological Momentary Assessments (EMA)のような従来の手法は、ストレスを評価するが、ユーザを負担することなく効率的なデータ収集に苦労する。 課題は、特にストレス時にEMAをタイムリーに送信し、モニタリング効率とユーザ利便性のバランスをとることだ。 本稿では,スマートウォッチのPPG(Photoplethysmography)データとスマートフォンのコンテキストデータを用いたストレス検出のための,文脈対応能動強化学習(RL)アルゴリズムを提案する。 提案手法では,EMAの展開に最適な時刻を動的に選択し,ユーザの即時コンテキストを利用してラベルの精度を最大化し,侵入性を最小化する。 当初、研究はオフライン環境で実施され、ラベル収集プロセスを洗練し、ユーザの負担を軽減しつつ精度を高めることを目的としていた。 その後、リアルタイムラベル収集機構を統合し、オンライン手法に移行した。 このシフトにより、応力検出効率は11%向上した。 コンテキストデータを組み込むことで、モデルの精度は4%向上した。 パーソナライゼーション研究では、AUC-ROCスコアが10%向上し、ストレスレベルの分化が向上した。 この研究は、パーソナライズされたコンテキスト駆動のリアルタイムストレスモニタリング手法への大きな動きを示す。

In today's fast-paced world, accurately monitoring stress levels is crucial. Sensor-based stress monitoring systems often need large datasets for training effective models. However, individual-specific models are necessary for personalized and interactive scenarios. Traditional methods like Ecological Momentary Assessments (EMAs) assess stress but struggle with efficient data collection without burdening users. The challenge is to timely send EMAs, especially during stress, balancing monitoring efficiency and user convenience. This paper introduces a novel context-aware active reinforcement learning (RL) algorithm for enhanced stress detection using Photoplethysmography (PPG) data from smartwatches and contextual data from smartphones. Our approach dynamically selects optimal times for deploying EMAs, utilizing the user's immediate context to maximize label accuracy and minimize intrusiveness. Initially, the study was executed in an offline environment to refine the label collection process, aiming to increase accuracy while reducing user burden. Later, we integrated a real-time label collection mechanism, transitioning to an online methodology. This shift resulted in an 11% improvement in stress detection efficiency. Incorporating contextual data improved model accuracy by 4%. Personalization studies indicated a 10% enhancement in AUC-ROC scores, demonstrating better stress level differentiation. This research marks a significant move towards personalized, context-driven real-time stress monitoring methods.
翻訳日:2024-07-12 18:48:48 公開日:2024-07-11
# 組織像を用いた空間的遺伝子発現予測のためのマルチモーダルコントラスト学習

Multimodal contrastive learning for spatial gene expression prediction using histology images ( http://arxiv.org/abs/2407.08216v1 )

ライセンス: Link先を確認
Wenwen Min, Zhiceng Shi, Jun Zhang, Jun Wan, Changmiao Wang, (参考訳) 近年、空間転写学(ST)技術の出現は、複雑な生物学的システム内の遺伝子発現パターンの複雑さを解明する前例のない機会を開拓している。 変革の可能性にもかかわらず、ST技術の禁止コストは、大規模な研究において広く普及する上で重要な障壁である。 代案として、よりコスト効率のよい戦略として、人工知能を用いて、HematoxylinとEosin(H\&E)で染色された、アクセスしやすい全スライディング画像(WSI)を使用して遺伝子発現レベルを予測する方法がある。 しかし,既存の手法では,空間的位置を持つH&E画像やSTデータから得られるマルチモーダル情報を十分に活用できていない。 本稿では,Transformer と Densenet-121 エンコーダを用いたマルチモーダルコントラスト学習である \textbf{mclSTExp} を提案する。 本研究では,トランスフォーマーエンコーダの自己保持機構を通じて,各スポットを「単語」として概念化し,その固有の特徴を空間的コンテキストと統合する。 この統合は、コントラスト学習を通じて画像特徴を取り入れることでさらに強化され、それによってモデルの予測能力が向上する。 2つの乳癌データセットと皮膚扁平上皮癌データセットに対するtextbf{mclSTExp}の広範な評価は、空間的遺伝子発現を予測する上で優れた性能を示す。 さらに、mclSTExpは、癌特異的過剰発現遺伝子を解釈し、免疫関連遺伝子を解明し、病理学者によって注釈された特定の空間領域を同定する、という約束を示した。 ソースコードはhttps://github.com/shizhiceng/mclSTExp.comで公開されています。

In recent years, the advent of spatial transcriptomics (ST) technology has unlocked unprecedented opportunities for delving into the complexities of gene expression patterns within intricate biological systems. Despite its transformative potential, the prohibitive cost of ST technology remains a significant barrier to its widespread adoption in large-scale studies. An alternative, more cost-effective strategy involves employing artificial intelligence to predict gene expression levels using readily accessible whole-slide images (WSIs) stained with Hematoxylin and Eosin (H\&E). However, existing methods have yet to fully capitalize on multimodal information provided by H&E images and ST data with spatial location. In this paper, we propose \textbf{mclSTExp}, a multimodal contrastive learning with Transformer and Densenet-121 encoder for Spatial Transcriptomics Expression prediction. We conceptualize each spot as a "word", integrating its intrinsic features with spatial context through the self-attention mechanism of a Transformer encoder. This integration is further enriched by incorporating image features via contrastive learning, thereby enhancing the predictive capability of our model. Our extensive evaluation of \textbf{mclSTExp} on two breast cancer datasets and a skin squamous cell carcinoma dataset demonstrates its superior performance in predicting spatial gene expression. Moreover, mclSTExp has shown promise in interpreting cancer-specific overexpressed genes, elucidating immune-related genes, and identifying specialized spatial domains annotated by pathologists. Our source code is available at https://github.com/shizhiceng/mclSTExp.
翻訳日:2024-07-12 18:39:04 公開日:2024-07-11
# 盲人・低視力者のための文脈関連ナビゲーション命令の生成

Generating Contextually-Relevant Navigation Instructions for Blind and Low Vision People ( http://arxiv.org/abs/2407.08219v1 )

ライセンス: Link先を確認
Zain Merchant, Abrar Anwar, Emily Wang, Souti Chattopadhyay, Jesse Thomason, (参考訳) 不慣れな環境をナビゲートすることは、盲目と低視(BLV)の個人にとって大きな課題となる。 本研究では,キッチンの探索や屋外でのナビゲーションなど,さまざまなシナリオを対象とした画像と目標のデータセットを構築した。 そこで本研究では,これらのインスタンスのユーザに対して,コンテキストに依存したナビゲーション指導を行うための基底命令生成手法について検討する。 視認されたユーザスタディを通じて、大規模な事前学習された言語モデルがBLVユーザにとって有益であると認識された正確で有用な命令を生成できることを実証する。 また、4人のBLVユーザを対象に調査とインタビューを行い、シナリオに基づいて異なる指示に対する好みに関する有用な洞察を観察する。

Navigating unfamiliar environments presents significant challenges for blind and low-vision (BLV) individuals. In this work, we construct a dataset of images and goals across different scenarios such as searching through kitchens or navigating outdoors. We then investigate how grounded instruction generation methods can provide contextually-relevant navigational guidance to users in these instances. Through a sighted user study, we demonstrate that large pretrained language models can produce correct and useful instructions perceived as beneficial for BLV users. We also conduct a survey and interview with 4 BLV users and observe useful insights on preferences for different instructions based on the scenario.
翻訳日:2024-07-12 18:39:04 公開日:2024-07-11
# ガウラ:任意視点の統一的復元とレンダリングのための一般化可能なアプローチ

GAURA: Generalizable Approach for Unified Restoration and Rendering of Arbitrary Views ( http://arxiv.org/abs/2407.08221v1 )

ライセンス: Link先を確認
Vinayak Gupta, Rongali Simhachala Venkata Girish, Mukund Varma T, Ayush Tewari, Kaushik Mitra, (参考訳) ニューラルレンダリング法は、ポーズされた入力画像からシーンの近光写実的画像合成を実現することができる。 しかし、画像が不完全である場合、例えば、非常に低照度で撮影された場合、最先端の手法では高品質な3Dシーンを再構成できない。 近年, 画像形成モデルにおける様々な劣化過程をモデル化することによって, この限界に対処する試みがなされている。 本稿では,高忠実度新規ビュー合成を複数の劣化下で実現可能な一般化可能なニューラルレンダリング手法を提案する。 我々の手法であるGAURAは学習ベースであり、テスト時間シーン固有の最適化を必要としない。 これは、いくつかの分解タイプを含む合成データセットでトレーニングされる。 GAURAは、低照度向上、デハジング、デラリニング、動作不良のためのオンパーのためのいくつかのベンチマークで最先端の手法より優れている。 さらに,本モデルでは,最小限のデータを用いて,新たな劣化に対して効率よく微調整することができる。 そこで我々は2つの目に見えない劣化に対して適応結果を示し,デフォーカスのぼかしの発見と除去を行った。 コードとビデオはvinayak-vg.github.io/GAURAで公開されている。

Neural rendering methods can achieve near-photorealistic image synthesis of scenes from posed input images. However, when the images are imperfect, e.g., captured in very low-light conditions, state-of-the-art methods fail to reconstruct high-quality 3D scenes. Recent approaches have tried to address this limitation by modeling various degradation processes in the image formation model; however, this limits them to specific image degradations. In this paper, we propose a generalizable neural rendering method that can perform high-fidelity novel view synthesis under several degradations. Our method, GAURA, is learning-based and does not require any test-time scene-specific optimization. It is trained on a synthetic dataset that includes several degradation types. GAURA outperforms state-of-the-art methods on several benchmarks for low-light enhancement, dehazing, deraining, and on-par for motion deblurring. Further, our model can be efficiently fine-tuned to any new incoming degradation using minimal data. We thus demonstrate adaptation results on two unseen degradations, desnowing and removing defocus blur. Code and video results are available at vinayak-vg.github.io/GAURA.
翻訳日:2024-07-12 18:39:04 公開日:2024-07-11
# 投機RAG: ドラフトによる検索向上

Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting ( http://arxiv.org/abs/2407.08223v1 )

ライセンス: Link先を確認
Zilong Wang, Zifeng Wang, Long Le, Huaixiu Steven Zheng, Swaroop Mishra, Vincent Perot, Yuwei Zhang, Anush Mattapalli, Ankur Taly, Jingbo Shang, Chen-Yu Lee, Tomas Pfister, (参考訳) 検索拡張生成(RAG)は、大規模言語モデル(LLM)と外部知識ソースを組み合わせ、より正確で最新の応答を提供する。 近年のRAGの進歩は、LLMの反復的な改良や、LLMのさらなる指導チューニングによって得られた自己批判機能による検索結果の改善に焦点が当てられている。 本研究では,より大規模なジェネラリストのLMを活用するフレームワークであるSpeculative RAGを導入し,より小さな蒸留専門のLMによって並列に生成された複数のRAGドラフトを効率よく検証する。 各ドラフトは、取得した文書の別個のサブセットから生成され、各ドラフトの入力トークン数を減らしながら、エビデンスについてさまざまな視点を提供する。 このアプローチは各サブセットの理解を高め、長期的文脈における潜在的な位置バイアスを緩和する。 提案手法は,より小さな専門家のLMにドラフト作成を委譲することでRAGを加速し,より大きなジェネラリストのLMがドラフトに1回の検証パスを実行する。 広範な実験により、Speculative RAGはTriviaQA、MuSiQue、PubHealth、ARC-Challengeベンチマークの遅延を低減し、最先端のパフォーマンスを達成することが示された。 PubHealthの従来のRAGシステムと比較して、レイテンシを51%削減しながら、最大12.97%の精度向上を実現している。

Retrieval augmented generation (RAG) combines the generative abilities of large language models (LLMs) with external knowledge sources to provide more accurate and up-to-date responses. Recent RAG advancements focus on improving retrieval outcomes through iterative LLM refinement or self-critique capabilities acquired through additional instruction tuning of LLMs. In this work, we introduce Speculative RAG - a framework that leverages a larger generalist LM to efficiently verify multiple RAG drafts produced in parallel by a smaller, distilled specialist LM. Each draft is generated from a distinct subset of retrieved documents, offering diverse perspectives on the evidence while reducing input token counts per draft. This approach enhances comprehension of each subset and mitigates potential position bias over long context. Our method accelerates RAG by delegating drafting to the smaller specialist LM, with the larger generalist LM performing a single verification pass over the drafts. Extensive experiments demonstrate that Speculative RAG achieves state-of-the-art performance with reduced latency on TriviaQA, MuSiQue, PubHealth, and ARC-Challenge benchmarks. It notably enhances accuracy by up to 12.97% while reducing latency by 51% compared to conventional RAG systems on PubHealth.
翻訳日:2024-07-12 18:39:04 公開日:2024-07-11
# stEnTrans:空間転写機能向上のためのトランスフォーマーを用いた深層学習

stEnTrans: Transformer-based deep learning for spatial transcriptomics enhancement ( http://arxiv.org/abs/2407.08224v1 )

ライセンス: Link先を確認
Shuailin Xue, Fangfang Zhu, Changmiao Wang, Wenwen Min, (参考訳) 組織や臓器内の細胞の空間的位置は、その特定の機能の顕在化に不可欠であり、空間的情報を保持しながら、組織内の遺伝子発現パターンの包括的測定を可能にする。 しかし、現在の一般的な空間転写学技術は、浅いシークエンシング深さまたは低い解像度を持つ。 本稿では,トランスフォーマーアーキテクチャに基づくディープラーニング手法 stEnTrans を提案する。これは,未測定領域や予期せぬ喪失領域における遺伝子発現の包括的予測を提供し,原点および入力箇所における遺伝子発現を向上させる。 stEnTransは、自己教師付き学習アプローチを利用して、追加データを必要としない遺伝子発現プロファイル上のプロキシタスクを確立し、組織固有の特徴を監督情報としてマイニングする。 stEnTransを6つのデータセット上で評価した結果,他の深層学習法や従来の補間法と比較して,不測領域におけるスポット分解能の向上と遺伝子発現の予測に優れた性能を示した。 さらに,本手法は空間的トランスクリプトークスにおける空間パターンの発見に役立ち,より生物学的に重要な経路に富む。 ソースコードはhttps://github.com/shuailinxue/stEnTransで公開しています。

The spatial location of cells within tissues and organs is crucial for the manifestation of their specific functions.Spatial transcriptomics technology enables comprehensive measurement of the gene expression patterns in tissues while retaining spatial information. However, current popular spatial transcriptomics techniques either have shallow sequencing depth or low resolution. We present stEnTrans, a deep learning method based on Transformer architecture that provides comprehensive predictions for gene expression in unmeasured areas or unexpectedly lost areas and enhances gene expression in original and inputed spots. Utilizing a self-supervised learning approach, stEnTrans establishes proxy tasks on gene expression profile without requiring additional data, mining intrinsic features of the tissues as supervisory information. We evaluate stEnTrans on six datasets and the results indicate superior performance in enhancing spots resolution and predicting gene expression in unmeasured areas compared to other deep learning and traditional interpolation methods. Additionally, Our method also can help the discovery of spatial patterns in Spatial Transcriptomics and enrich to more biologically significant pathways. Our source code is available at https://github.com/shuailinxue/stEnTrans.
翻訳日:2024-07-12 18:39:04 公開日:2024-07-11
# DALL-M:LLMを用いたコンテキスト対応臨床データ拡張

DALL-M: Context-Aware Clinical Data Augmentation with LLMs ( http://arxiv.org/abs/2407.08227v1 )

ライセンス: Link先を確認
Chihcheng Hsieh, Catarina Moreira, Isabel Blanco Nobre, Sandra Costa Sousa, Chun Ouyang, Margot Brereton, Joaquim Jorge, Jacinto C. Nascimento, (参考訳) X線画像は医療診断において不可欠であるが、臨床的文脈なしでは有効性は限られている。 放射線医は、基礎疾患の診断、包括的臨床特徴の必要、およびデータ統合に不十分な胸部X線をしばしば見出す。 本稿では,臨床表型データによる拡張技術により臨床コンテキストを向上し,AI診断における適用性と信頼性を向上させる新しい手法を提案する。 そこで我々は,大言語モデル(LLM)を用いて患者コンテキスト合成データを生成する臨床データ拡張の先駆的アプローチを提案する。 この方法論は、医療におけるより堅牢なディープラーニングモデルのトレーニングに不可欠です。 実際の患者データの整合性を保ちつつ、文脈に関連のある合成機能でデータセットを充実させ、モデル性能を大幅に向上させる。 DALL-Mは3相特徴生成プロセスを使用する。 (i)臨床用文脈記憶装置 (ii)エキスパートクエリ生成、および (iii)文脈認識機能拡張。 DALL-Mは胸部X線像と報告を合成することにより、臨床的に新しい特徴を生み出す。 MIMIC-IVデータセットの9つの特徴を使用して799のケースに適用された。 これは、患者のX線レポート、性別、年齢に基づいて、既存および新機能のコンテキスト値を生成し、データ拡張中に新しいコンテキスト知識を生成する最初の研究である。 Decision Trees、Random Forests、XGBoost、TabNETなど、機械学習モデルによる実証的な検証は、大幅なパフォーマンス向上を示した。 F1のスコアは16.5%、精度とリコールは25%向上した。 DALL-Mは臨床データ拡張における重要なギャップに対処し、コンテキストに富んだデータセットを生成するための堅牢なフレームワークを提供する。

X-ray images are vital in medical diagnostics, but their effectiveness is limited without clinical context. Radiologists often find chest X-rays insufficient for diagnosing underlying diseases, necessitating comprehensive clinical features and data integration. We present a novel technique to enhance the clinical context through augmentation techniques with clinical tabular data, thereby improving its applicability and reliability in AI medical diagnostics. To address this, we introduce a pioneering approach to clinical data augmentation that employs large language models (LLMs) to generate patient contextual synthetic data. This methodology is crucial for training more robust deep learning models in healthcare. It preserves the integrity of real patient data while enriching the dataset with contextually relevant synthetic features, significantly enhancing model performance. DALL-M uses a three-phase feature generation process: (i) clinical context storage, (ii) expert query generation, and (iii) context-aware feature augmentation. DALL-M generates new, clinically relevant features by synthesizing chest X-ray images and reports. Applied to 799 cases using nine features from the MIMIC-IV dataset, it created an augmented set of 91 features. This is the first work to generate contextual values for existing and new features based on patients' X-ray reports, gender, and age and to produce new contextual knowledge during data augmentation. Empirical validation with machine learning models, including Decision Trees, Random Forests, XGBoost, and TabNET, showed significant performance improvements. Incorporating augmented features increased the F1 score by 16.5% and Precision and Recall by approximately 25%. DALL-M addresses a critical gap in clinical data augmentation, offering a robust framework for generating contextually enriched datasets.
翻訳日:2024-07-12 18:39:04 公開日:2024-07-11
# E2VIDiff:Diffusion Priorsを用いた知覚的イベント・ビデオ再構成

E2VIDiff: Perceptual Events-to-Video Reconstruction using Diffusion Priors ( http://arxiv.org/abs/2407.08231v1 )

ライセンス: Link先を確認
Jinxiu Liang, Bohan Yu, Yixin Yang, Yiming Han, Boxin Shi, (参考訳) イベントカメラは人間の網膜を模倣し、例外のない時間分解能とダイナミックレンジで明るさの変化を捉えます。 イベントをインテンシティに統合することは、初期状態の曖昧さに悩まされる、非常に不適切な課題を引き起こす。 従来の回帰に基づくディープラーニング手法は知覚品質に乏しく、決定論的かつしばしば非現実的な再構築を提供する。 本稿では,非クロマティックなイベントから,カラフルでリアルで知覚的に優れた映像生成を実現するために,イベント・ツー・ビデオの再構成に拡散モデルを導入する。 提案手法は, 画像生成能力と事前学習した拡散モデルの知識を生かして, 再構成されたフレームの知覚と歪みとのトレードオフを, 従来の解と比較して向上させることができる。 ベンチマークデータセットに関する大規模な実験は、我々のアプローチが与えられたイベントに忠実な多種多様な現実的なフレームを生成できることを示した。

Event cameras, mimicking the human retina, capture brightness changes with unparalleled temporal resolution and dynamic range. Integrating events into intensities poses a highly ill-posed challenge, marred by initial condition ambiguities. Traditional regression-based deep learning methods fall short in perceptual quality, offering deterministic and often unrealistic reconstructions. In this paper, we introduce diffusion models to events-to-video reconstruction, achieving colorful, realistic, and perceptually superior video generation from achromatic events. Powered by the image generation ability and knowledge of pretrained diffusion models, the proposed method can achieve a better trade-off between the perception and distortion of the reconstructed frame compared to previous solutions. Extensive experiments on benchmark datasets demonstrate that our approach can produce diverse, realistic frames with faithfulness to the given events.
翻訳日:2024-07-12 18:39:04 公開日:2024-07-11
# SwishReLU: 深層ニューラルネットワーク性能向上のためのアクティベーション関数の統一的アプローチ

SwishReLU: A Unified Approach to Activation Functions for Enhanced Deep Neural Networks Performance ( http://arxiv.org/abs/2407.08232v1 )

ライセンス: Link先を確認
Jamshaid Ul Rahman, Rubiqa Zulfiqar, Asad Khan, Nimra, (参考訳) ディープニューラルネットワークでよく使われるアクティベーション関数であるReLUは、"Dying ReLU"の問題に傾向がある。 ELU、SeLU、Swishなどいくつかの改良版が導入されており、一般的には使われていないと考えられている。 しかし、ReLUの置き換えは、一貫性のない利点のため、やや難しい場合がある。 SwishはReLUと同様のスムーズな遷移を提供するが、その利用は一般にReLUよりも計算負担が大きい。 本稿では,ReLUとSwishの要素を組み合わせた新しいアクティベーション機能であるSwishReLUを提案する。 以上の結果から,SwishReLUはSwishよりも計算コストの低いReLUよりも優れた性能を示した。 本稿では,様々な種類のReLU変種とSwishReLUの比較を行った。 具体的には,CIFAR-10,CIFAR-100,MNISTの3つのデータセットについて,ELUとSeLUを比較した。 特に、アルゴリズム2で記述されたVGG16モデルにSwishReLUを適用すると、CIFAR-10データセットの精度が6%向上する。

ReLU, a commonly used activation function in deep neural networks, is prone to the issue of "Dying ReLU". Several enhanced versions, such as ELU, SeLU, and Swish, have been introduced and are considered to be less commonly utilized. However, replacing ReLU can be somewhat challenging due to its inconsistent advantages. While Swish offers a smoother transition similar to ReLU, its utilization generally incurs a greater computational burden compared to ReLU. This paper proposes SwishReLU, a novel activation function combining elements of ReLU and Swish. Our findings reveal that SwishReLU outperforms ReLU in performance with a lower computational cost than Swish. This paper undertakes an examination and comparison of different types of ReLU variants with SwishReLU. Specifically, we compare ELU and SeLU along with Tanh on three datasets: CIFAR-10, CIFAR-100 and MNIST. Notably, applying SwishReLU in the VGG16 model described in Algorithm 2 yields a 6% accuracy improvement on the CIFAR-10 dataset.
翻訳日:2024-07-12 18:39:04 公開日:2024-07-11
# 隠れた状態推定下での差分プライベートニューラルネットワークトレーニング

Differentially Private Neural Network Training under Hidden State Assumption ( http://arxiv.org/abs/2407.08233v1 )

ライセンス: Link先を確認
Ding Chen, Chen Liu, (参考訳) 隠れ状態前提下での差分プライバシーを保証するニューラルネットワークのトレーニングには,DP-SBCD(differentially private stochastic block coordinate descent)と呼ばれる新しい手法を提案する。 提案手法では,リプシッツニューラルネットワークを組み込んで,ニューラルネットワークのトレーニングプロセスをサブプロブレムに分解し,それぞれが特定のレイヤのトレーニングに対応する。 これにより、非凸問題や近勾配勾配を用いたアルゴリズムを包含するように、隠れ状態の仮定の下で微分プライバシーの分析を拡張する。 さらに,従来の手法とは対照的に,適応分布からサンプリングした校正ノイズを利用して,実用性とプライバシのトレードオフを改善した新しい手法を採用する。

We present a novel approach called differentially private stochastic block coordinate descent (DP-SBCD) for training neural networks with provable guarantees of differential privacy under the hidden state assumption. Our methodology incorporates Lipschitz neural networks and decomposes the training process of the neural network into sub-problems, each corresponding to the training of a specific layer. By doing so, we extend the analysis of differential privacy under the hidden state assumption to encompass non-convex problems and algorithms employing proximal gradient descent. Furthermore, in contrast to existing methods, we adopt a novel approach by utilizing calibrated noise sampled from adaptive distributions, yielding improved empirical trade-offs between utility and privacy.
翻訳日:2024-07-12 18:39:04 公開日:2024-07-11
# 部分フェイクオーディオにおける操作領域の位置決定のための教師なし領域適応法

An Unsupervised Domain Adaptation Method for Locating Manipulated Region in partially fake Audio ( http://arxiv.org/abs/2407.08239v1 )

ライセンス: Link先を確認
Siding Zeng, Jiangyan Yi, Jianhua Tao, Yujie Chen, Shan Liang, Yong Ren, Xiaohui Zhang, (参考訳) 部分フェイクオーディオ(PFA)における操作領域の位置決めタスクでは、ソースとターゲットドメイン間のシフトにより、ディープラーニングモデルの性能が大幅に低下する。 この問題に対処するため、既存のアプローチでは、トレーニング前にデータ拡張を採用することが多い。 しかし、ソースドメインに存在しないターゲットドメインの特徴を見落としている。 そこで本研究では,Simples mining with Diversity and Entropy (SDE) という未管理の手法を提案する。 提案手法は,まず,ソースドメインの異なる視点から,対象サンプルのあいまいさを伴って,優れたパフォーマンスを実現する多種多様な専門家のコレクションから学習する。 我々はこれらの多様な専門家を活用し、エントロピーを計算して最も情報に富むサンプルを選定する。 さらに,対象ドメイン情報を統合したソースドメインのトレーニングプロセスに組み込んだ,これらのサンプルに合わせたラベル生成手法も導入した。 提案手法をクロスドメインな部分的に偽の音声検出データセットであるADD2023Track2に適用した。 対象ドメインから未知のサンプルの10%を導入することで、F1スコアは43.84%となり、第2ベット法に比べて77.2%の相対的な増加を示した。

When the task of locating manipulation regions in partially-fake audio (PFA) involves cross-domain datasets, the performance of deep learning models drops significantly due to the shift between the source and target domains. To address this issue, existing approaches often employ data augmentation before training. However, they overlook the characteristics in target domain that are absent in source domain. Inspired by the mixture-of-experts model, we propose an unsupervised method named Samples mining with Diversity and Entropy (SDE). Our method first learns from a collection of diverse experts that achieve great performance from different perspectives in the source domain, but with ambiguity on target samples. We leverage these diverse experts to select the most informative samples by calculating their entropy. Furthermore, we introduced a label generation method tailored for these selected samples that are incorporated in the training process in source domain integrating the target domain information. We applied our method to a cross-domain partially fake audio detection dataset, ADD2023Track2. By introducing 10% of unknown samples from the target domain, we achieved an F1 score of 43.84%, which represents a relative increase of 77.2% compared to the second-best method.
翻訳日:2024-07-12 18:39:04 公開日:2024-07-11
# LLMを用いたスマートフォンセンサ機能による影響状態予測

Leveraging LLMs to Predict Affective States via Smartphone Sensor Features ( http://arxiv.org/abs/2407.08240v1 )

ライセンス: Link先を確認
Tianyi Zhang, Songyan Teng, Hong Jia, Simon D'Alfonso, (参考訳) 若者のメンタルヘルス問題は公衆衛生の懸念が高まる中、早期発見のための日々のデジタルムードモニタリングが重要視されている。 アクティブな研究領域であるデジタル表現型は、行動やメンタルヘルスを推測するために、スマートフォン(使用やセンサー)やウェアラブルなどのパーソナルデジタルデバイスからデータを収集して分析する。 このデータは統計的および機械学習のアプローチで標準的な分析がなされているが、大きな言語モデル(LLM)の出現は、スマートフォンのセンシングデータを理解するための新しいアプローチを提供する。 様々な領域にまたがる効果にもかかわらず、LSMはデジタルメンタルヘルス、特にモバイルセンサーデータの統合において比較的研究されていない。 本研究は, 大学生のスマートフォンセンシングデータに基づいて, LLMを用いて影響を予測し, このギャップを埋めることを目的とする。 一般幸福度推定におけるゼロショットおよび少数ショット埋め込みLDMの有効性を実証した。 以上の結果から,LLMはスマートフォンのセンサデータのみを用いて,影響度を予測できる可能性が示唆された。 本研究は, スマートフォンの行動パターンと感情状態との複雑な関係を強調し, 感情状態予測のためのLLMの可能性に光を当てるものである。 我々の知る限り、LLMを情緒的状態予測やデジタル表現型タスクに活用する最初の試みである。

As mental health issues for young adults present a pressing public health concern, daily digital mood monitoring for early detection has become an important prospect. An active research area, digital phenotyping, involves collecting and analysing data from personal digital devices such as smartphones (usage and sensors) and wearables to infer behaviours and mental health. Whilst this data is standardly analysed using statistical and machine learning approaches, the emergence of large language models (LLMs) offers a new approach to make sense of smartphone sensing data. Despite their effectiveness across various domains, LLMs remain relatively unexplored in digital mental health, particularly in integrating mobile sensor data. Our study aims to bridge this gap by employing LLMs to predict affect outcomes based on smartphone sensing data from university students. We demonstrate the efficacy of zero-shot and few-shot embedding LLMs in inferring general wellbeing. Our findings reveal that LLMs can make promising predictions of affect measures using solely smartphone sensing data. This research sheds light on the potential of LLMs for affective state prediction, emphasizing the intricate link between smartphone behavioral patterns and affective states. To our knowledge, this is the first work to leverage LLMs for affective state prediction and digital phenotyping tasks.
翻訳日:2024-07-12 18:39:04 公開日:2024-07-11
# ファイナドメイン分割による全身性顔面反スプーフィングと肝疾患関連因子の鑑別

Generalized Face Anti-spoofing via Finer Domain Partition and Disentangling Liveness-irrelevant Factors ( http://arxiv.org/abs/2407.08243v1 )

ライセンス: Link先を確認
Jingyi Yang, Zitong Yu, Xiuming Ni, Jia He, Hui Li, (参考訳) ドメイン一般化に基づく対面型アンチ・スプーフィング技術は近年広く研究されている。 ドメイン不変表現を学習するために、逆学習とメタ学習技術が採用されている。 しかしながら、以前のアプローチでは、データセットのギャップをドメインシフトの背後にある主要な要因とみなすことが多い。 この視点は、データ間の固有のギャップを正確に反映するのに十分なきめ細かいものではない。 我々の研究では、データセットではなくアイデンティティに基づいてドメインを再定義し、生きた属性とアイデンティティ属性をアンタングルすることを目的としています。 我々は,アイデンティティシフトの悪影響を無視し,直交的な生活とアイデンティティの特徴を通じて,アイデンティティ不変の生活表現を学習することに焦点を当てた。 スタイルシフトに対処するため,スタイルシフトに対する感度を弱めるために,スタイルの多様性を拡大するスタイルクロスモジュールとチャンネルワイドスタイルアテンションモジュールを提案する。 さらに, 生体試料とスプーフ試料の非対称性を認め, 新たに非対称拡張インスタンスコントラストを導入した。 4つの公開データセットに対する大規模な実験により、我々の手法は、クロスデータセットおよび限られたソースデータセットシナリオの下で最先端のパフォーマンスを達成することを示した。 さらに,本手法は多様性を拡大する際のスケーラビリティも良好である。 コードも間もなく公開される予定だ。

Face anti-spoofing techniques based on domain generalization have recently been studied widely. Adversarial learning and meta-learning techniques have been adopted to learn domain-invariant representations. However, prior approaches often consider the dataset gap as the primary factor behind domain shifts. This perspective is not fine-grained enough to reflect the intrinsic gap among the data accurately. In our work, we redefine domains based on identities rather than datasets, aiming to disentangle liveness and identity attributes. We emphasize ignoring the adverse effect of identity shift, focusing on learning identity-invariant liveness representations through orthogonalizing liveness and identity features. To cope with style shifts, we propose Style Cross module to expand the stylistic diversity and Channel-wise Style Attention module to weaken the sensitivity to style shifts, aiming to learn robust liveness representations. Furthermore, acknowledging the asymmetry between live and spoof samples, we introduce a novel contrastive loss, Asymmetric Augmented Instance Contrast. Extensive experiments on four public datasets demonstrate that our method achieves state-of-the-art performance under cross-dataset and limited source dataset scenarios. Additionally, our method has good scalability when expanding diversity of identities. The codes will be released soon.
翻訳日:2024-07-12 18:39:04 公開日:2024-07-11
# 非教師付き平滑な3次元形状マッチングのための同期拡散法

Synchronous Diffusion for Unsupervised Smooth Non-Rigid 3D Shape Matching ( http://arxiv.org/abs/2407.08244v1 )

ライセンス: Link先を確認
Dongliang Cao, Zorah Laehner, Florian Bernard, (参考訳) 最近の非教師なし3次元形状マッチング法は,その効率性と優れた性能のため,関数型マップフレームワークをベースとしている。 それでも、それぞれの手法は、適切な正規化が欠如しているため、空間的に滑らかな点対応を得るのに苦労する。 本研究は,グラフ上でのメッセージパッシングの成功に触発されて,非剛性3次元形状整合問題における滑らか性を実現するために,正規化として使用する同期拡散プロセスを提案する。 同期拡散の直感は、2つの異なる形状で同じ入力関数を拡散することで一貫した出力が得られるということである。 異なる挑戦的データセットを用いて、新しい正規化が、特にトポロジカルノイズの存在下で、形状マッチングの最先端性を大幅に改善できることを実証する。

Most recent unsupervised non-rigid 3D shape matching methods are based on the functional map framework due to its efficiency and superior performance. Nevertheless, respective methods struggle to obtain spatially smooth pointwise correspondences due to the lack of proper regularisation. In this work, inspired by the success of message passing on graphs, we propose a synchronous diffusion process which we use as regularisation to achieve smoothness in non-rigid 3D shape matching problems. The intuition of synchronous diffusion is that diffusing the same input function on two different shapes results in consistent outputs. Using different challenging datasets, we demonstrate that our novel regularisation can substantially improve the state-of-the-art in shape matching, especially in the presence of topological noise.
翻訳日:2024-07-12 18:39:04 公開日:2024-07-11
# Federated Domain Generalizationのための特徴の多様化と適応

Feature Diversification and Adaptation for Federated Domain Generalization ( http://arxiv.org/abs/2407.08245v1 )

ライセンス: Link先を確認
Seunghan Yang, Seokeon Choi, Hyunsin Park, Sungha Choi, Simyung Chang, Sungrack Yun, (参考訳) 分散学習パラダイムであるフェデレーション学習は、複数のクライアントを使用して堅牢なグローバルモデルを構築する。 実世界のアプリケーションでは、ローカルクライアントは制限されたドメイン内で運用されることが多く、クライアント間で‘ドメインシフト’が発生する。 プライバシに関する懸念は、各クライアントの学習を自身のドメインデータに制限することで、過度な適合のリスクを増大させる。 さらに、自身の限られたドメインでトレーニングされたモデルを集約するプロセスは、グローバルモデルのパフォーマンスを著しく低下させる可能性がある。 これらの課題に対処するために、フェデレートされた特徴の多様化の概念を導入する。 各クライアントは、グローバルな特徴統計、すなわちグローバルモデルのパラメータを通して共有される全クライアントの平均統計を利用して、独自の制限されたドメインデータを多様化する。 このデータの多様化は、プライバシを保護しながら、ローカルモデルがクライアント不変表現を学習するのに役立つ。 我々のグローバルモデルでは、目に見えないテスト領域データに対して堅牢な性能を示す。 さらに性能を向上させるために,テスト領域データに適したインスタンス適応型推論手法を開発した。 提案するインスタンス機能アダプタは,テスト入力に合わせて機能統計を動的に調整し,テスト領域とトレーニング領域のドメインギャップを低減する。 本手法は,フェデレートされた学習環境において,いくつかの領域一般化ベンチマークにおける最先端性能を実現する。

Federated learning, a distributed learning paradigm, utilizes multiple clients to build a robust global model. In real-world applications, local clients often operate within their limited domains, leading to a `domain shift' across clients. Privacy concerns limit each client's learning to its own domain data, which increase the risk of overfitting. Moreover, the process of aggregating models trained on own limited domain can be potentially lead to a significant degradation in the global model performance. To deal with these challenges, we introduce the concept of federated feature diversification. Each client diversifies the own limited domain data by leveraging global feature statistics, i.e., the aggregated average statistics over all participating clients, shared through the global model's parameters. This data diversification helps local models to learn client-invariant representations while preserving privacy. Our resultant global model shows robust performance on unseen test domain data. To enhance performance further, we develop an instance-adaptive inference approach tailored for test domain data. Our proposed instance feature adapter dynamically adjusts feature statistics to align with the test input, thereby reducing the domain gap between the test and training domains. We show that our method achieves state-of-the-art performance on several domain generalization benchmarks within a federated learning setting.
翻訳日:2024-07-12 18:39:04 公開日:2024-07-11
# 視覚障害者向けのアクセシビリティ・コミック

Toward accessible comics for blind and low vision readers ( http://arxiv.org/abs/2407.08248v1 )

ライセンス: Link先を確認
Christophe Rigaud, Jean-Christophe Burie, Samuel Petit, (参考訳) 本研究は,全ストーリーの正確なテキスト記述を生成するために,文脈情報を用いた素早い工学的手法を用いて,大規模言語モデルを微調整する方法を探求する。 本稿では,既存のコンピュータビジョンと光学文字認識技術を用いて,パネル,文字,テキスト,読み順,バブルと文字の関連性など,漫画のストリップ画像コンテンツから背景となるコンテキストを構築することを提案する。 そして、文字識別を推論し、文字の外観、姿勢、気分、対話などを含む文脈対応パネル記述による漫画の脚本を生成する。 このようなリッチなコンテンツ記述は、文字、キャプション、演奏効果の様々な声でオーディオブックや電子書籍を作成するのに容易に利用できると信じている。

This work explores how to fine-tune large language models using prompt engineering techniques with contextual information for generating an accurate text description of the full story, ready to be forwarded to off-the-shelve speech synthesis tools. We propose to use existing computer vision and optical character recognition techniques to build a grounded context from the comic strip image content, such as panels, characters, text, reading order and the association of bubbles and characters. Then we infer character identification and generate comic book script with context-aware panel description including character's appearance, posture, mood, dialogues etc. We believe that such enriched content description can be easily used to produce audiobook and eBook with various voices for characters, captions and playing sound effects.
翻訳日:2024-07-12 18:39:04 公開日:2024-07-11
# GeNet: ネットワークトポロジと構成のためのマルチモーダルLLMベースのコパイロット

GeNet: A Multimodal LLM-Based Co-Pilot for Network Topology and Configuration ( http://arxiv.org/abs/2407.08249v1 )

ライセンス: Link先を確認
Beni Ifland, Elad Duani, Rubin Krief, Miro Ohana, Aviram Zilberman, Andres Murillo, Ofir Manor, Ortal Lavi, Hikichi Kenji, Asaf Shabtai, Yuval Elovici, Rami Puzis, (参考訳) エンタープライズ環境での通信ネットワークエンジニアリングは、伝統的に複雑で時間がかかり、エラーを起こしやすい手作業である。 ネットワークエンジニアリングの自動化に関するほとんどの研究は、物理ネットワークトポロジの変化を見越して、構成合成に集中してきた。 本稿では,エンタープライズネットワークエンジニアのためのマルチモーダル・コパイロットであるGeNetを紹介する。 GeNetは、大規模言語モデル(LLM)を利用してネットワーク設計ワークフローを合理化するための新しいフレームワークである。 視覚的およびテキスト的モダリティを使用して、ネットワークトポロジとデバイス構成をユーザ意図に基づいて解釈し、更新する。 GeNetは、Cisco認定演習に適合したエンタープライズネットワークシナリオで評価された。 本稿では,GeNetのネットワークトポロジ画像の正確な解釈能力を示すとともに,ネットワーク技術者の努力を削減し,企業環境におけるネットワーク設計プロセスの高速化を図っている。 さらに,ネットワークのトポロジの変更を必要とする意図を扱う場合,正確なトポロジ理解の重要性を示す。

Communication network engineering in enterprise environments is traditionally a complex, time-consuming, and error-prone manual process. Most research on network engineering automation has concentrated on configuration synthesis, often overlooking changes in the physical network topology. This paper introduces GeNet, a multimodal co-pilot for enterprise network engineers. GeNet is a novel framework that leverages a large language model (LLM) to streamline network design workflows. It uses visual and textual modalities to interpret and update network topologies and device configurations based on user intents. GeNet was evaluated on enterprise network scenarios adapted from Cisco certification exercises. Our results demonstrate GeNet's ability to interpret network topology images accurately, potentially reducing network engineers' efforts and accelerating network design processes in enterprise environments. Furthermore, we show the importance of precise topology understanding when handling intents that require modifications to the network's topology.
翻訳日:2024-07-12 18:29:17 公開日:2024-07-11
# グラディエント強化強化学習

Gradient Boosting Reinforcement Learning ( http://arxiv.org/abs/2407.08250v1 )

ライセンス: Link先を確認
Benjamin Fuhrer, Chen Tessler, Gal Dalal, (参考訳) ニューラルネットワーク(NN)は、様々なタスクにおいて顕著な結果をもたらすが、解釈可能性、カテゴリ機能のサポート、エッジデバイスに適した軽量実装といった重要な特徴を欠いている。 進行中の取り組みはこれらの課題に対処することを目的としているが、Gradient Boosting Trees (GBT) は本質的にこれらの要件を満たしている。 その結果、GBTは現実世界の多くのアプリケーションやコンペティションにおいて、教師付き学習タスクのゴーツーメソッドとなっている。 しかし、オンライン学習のシナリオ、特に強化学習(RL)における応用は限られている。 本稿では、GBTの利点をRLドメインに拡張するフレームワークであるGBRL(Gradient-Boosting RL)を導入することにより、このギャップを埋める。 GBRLフレームワークを用いて,様々なアクター批判アルゴリズムを実装し,その性能をNNと比較する。 NNの共有バックボーンにインスパイアされた我々は、異なる学習率を持つポリシーと価値関数のためのツリー共有アプローチを導入し、数百万のインタラクションに対する学習効率を向上する。 GBRLは、さまざまなタスクにまたがる競争的なパフォーマンスを実現し、構造的または分類的な特徴を持つドメインで優れている。 また、広く使われているRLライブラリ(https://github.com/NVlabs/gbrl)とシームレスに統合する高速GPU高速化実装を提案する。 GBRLは、RL実践者のためのツールキットを拡張し、特に構造的または分類的特徴を特徴とする領域において、RLパラダイムにおけるGBTの生存可能性と将来性を示す。

Neural networks (NN) achieve remarkable results in various tasks, but lack key characteristics: interpretability, support for categorical features, and lightweight implementations suitable for edge devices. While ongoing efforts aim to address these challenges, Gradient Boosting Trees (GBT) inherently meet these requirements. As a result, GBTs have become the go-to method for supervised learning tasks in many real-world applications and competitions. However, their application in online learning scenarios, notably in reinforcement learning (RL), has been limited. In this work, we bridge this gap by introducing Gradient-Boosting RL (GBRL), a framework that extends the advantages of GBT to the RL domain. Using the GBRL framework, we implement various actor-critic algorithms and compare their performance with their NN counterparts. Inspired by shared backbones in NN we introduce a tree-sharing approach for policy and value functions with distinct learning rates, enhancing learning efficiency over millions of interactions. GBRL achieves competitive performance across a diverse array of tasks, excelling in domains with structured or categorical features. Additionally, we present a high-performance, GPU-accelerated implementation that integrates seamlessly with widely-used RL libraries (available at https://github.com/NVlabs/gbrl). GBRL expands the toolkit for RL practitioners, demonstrating the viability and promise of GBT within the RL paradigm, particularly in domains characterized by structured or categorical features.
翻訳日:2024-07-12 18:29:17 公開日:2024-07-11
# データセットフリー超解像のための空間変動劣化モデル

Spatially-Variant Degradation Model for Dataset-free Super-resolution ( http://arxiv.org/abs/2407.08252v1 )

ライセンス: Link先を確認
Shaojie Guo, Haofei Song, Qingli Li, Yan Wang, (参考訳) 本稿では,データセットのないBlind Image Super-Resolution (BISR)に焦点を当てる。 画像全体の劣化カーネルの取得に重点を置いている既存のデータセットフリーBISR法とは異なり、各画素に対して空間変動分解モデルを明示的に設計するのは初めてである。 また,データ駆動型空間変動型BISR法と比較して,学習可能なパラメータの数が大幅に少ないという利点もある。 具体的には、各画素の分解カーネルは、少数の空間変化原子核からなる学習可能な辞書の線形結合として表現される。 原子分解核の係数行列はファジィ集合論の会員関数を用いて導出される。 そこで我々は,確率的BISRモデルを構築した。 次に,モンテカルロEMアルゴリズムを用いて,各画素の劣化カーネルを推定する。 提案手法は,従来のBISR法に比べて1dB (2x) の精度向上を実現している。 コードはhttps://github.com/shaojieguoECNU/SVDSRでリリースされる。

This paper focuses on the dataset-free Blind Image Super-Resolution (BISR). Unlike existing dataset-free BISR methods that focus on obtaining a degradation kernel for the entire image, we are the first to explicitly design a spatially-variant degradation model for each pixel. Our method also benefits from having a significantly smaller number of learnable parameters compared to data-driven spatially-variant BISR methods. Concretely, each pixel's degradation kernel is expressed as a linear combination of a learnable dictionary composed of a small number of spatially-variant atom kernels. The coefficient matrices of the atom degradation kernels are derived using membership functions of fuzzy set theory. We construct a novel Probabilistic BISR model with tailored likelihood function and prior terms. Subsequently, we employ the Monte Carlo EM algorithm to infer the degradation kernels for each pixel. Our method achieves a significant improvement over other state-of-the-art BISR methods, with an average improvement of 1 dB (2x).Code will be released at https://github.com/shaojieguoECNU/SVDSR.
翻訳日:2024-07-12 18:29:17 公開日:2024-07-11
# United We Stand: 参加型分散型マルチエージェント計画

United We Stand: Decentralized Multi-Agent Planning With Attrition ( http://arxiv.org/abs/2407.08254v1 )

ライセンス: Link先を確認
Nhat Nguyen, Duong Nguyen, Gianluca Rizzo, Hung Nguyen, (参考訳) 分散計画は情報収集タスクのための協調型マルチエージェントシステムの鍵となる要素である。 しかし、現実的な大規模デプロイメントシナリオではエージェント障害の頻度が高いにもかかわらず、現在のアプローチは、まったく収束しない、あるいはリソース(例えばエネルギー)の非常に非効率な利用によって、障害の存在下ではパフォーマンスが悪くなっている。 本研究では,Attritable MCTS (A-MCTS) を提案する。 これは、各エージェントの局所的な貢献の推定にグローバルな報酬関数を使うことと、協調のための後悔のマッチングに基づいている。 異なるシナリオ下での現実的なデータハーベストング問題における有効性を評価する。 A-MCTSは高故障率でも効率よく適応できることを理論的および実験的に示す。 その結果、頻繁な障害が存在する場合、我々のソリューションは、グローバルなユーティリティとスケーラビリティの観点から、最も優れた既存アプローチよりも大幅に改善されていることが示唆された。

Decentralized planning is a key element of cooperative multi-agent systems for information gathering tasks. However, despite the high frequency of agent failures in realistic large deployment scenarios, current approaches perform poorly in the presence of failures, by not converging at all, and/or by making very inefficient use of resources (e.g. energy). In this work, we propose Attritable MCTS (A-MCTS), a decentralized MCTS algorithm capable of timely and efficient adaptation to changes in the set of active agents. It is based on the use of a global reward function for the estimation of each agent's local contribution, and regret matching for coordination. We evaluate its effectiveness in realistic data-harvesting problems under different scenarios. We show both theoretically and experimentally that A-MCTS enables efficient adaptation even under high failure rates. Results suggest that, in the presence of frequent failures, our solution improves substantially over the best existing approaches in terms of global utility and scalability.
翻訳日:2024-07-12 18:29:17 公開日:2024-07-11
# GraphMamba: ハイパースペクトル画像分類のための効率的なグラフ構造学習ビジョンMamba

GraphMamba: An Efficient Graph Structure Learning Vision Mamba for Hyperspectral Image Classification ( http://arxiv.org/abs/2407.08255v1 )

ライセンス: Link先を確認
Aitao Yang, Min Li, Yao Ding, Leyuan Fang, Yaoming Cai, Yujie He, (参考訳) スペクトル列と地理空間情報の効率的な抽出は、常にハイパースペクトル画像分類においてホットな話題となっている。 スペクトルシーケンスの特徴キャプチャに関して、RNNとTransformerは、その長距離の特徴キャプチャ機能のために、主流の分類フレームワークになっている。 空間情報アグリゲーションの観点では、CNNは受容場を強化し、可能な限り統合された空間情報を保持する。 しかし、スペクトル特徴キャプチャーアーキテクチャは計算効率が低く、CNNは空間的文脈情報を知覚する柔軟性に欠ける。 これらの課題に対処するために,HSI特性を完全に考慮し,深部空間スペクトル情報マイニングを実現するグラフ構造学習ビジョンMamba分類フレームワークのGraphMambaを提案する。 具体的には、空間スペクトル立方体を構築することで空間スペクトルの特徴を保存し、線形スペクトル符号化を用いてその後のタスクの操作性を向上する、新しいハイパースペクトルビジュアルグラフマンバ処理パラダイム(HVGM)を提案する。 GraphMambaのコアコンポーネントには、計算効率を改善するHyperMambaモジュールと、適応的な空間コンテキスト認識のためのSpectralGCNモジュールが含まれている。 HyperMambaは、グローバルマスク(GM)を用いてクラッタ干渉を緩和し、計算ボトルネックを軽減するための並列トレーニング推論アーキテクチャを導入する。 空間GCNは、重み付けされたマルチホップアグリゲーション(WMA)空間符号化を取り入れ、高度に相関した空間構造特徴に焦点を合わせ、空間ノイズ干渉を緩和しながら、文脈情報を柔軟に集約する。 実HSIデータセットの3つの異なるスケールで大規模な実験を行い、最先端の分類フレームワークと比較して、GraphMambaは最適なパフォーマンスを達成した。

Efficient extraction of spectral sequences and geospatial information has always been a hot topic in hyperspectral image classification. In terms of spectral sequence feature capture, RNN and Transformer have become mainstream classification frameworks due to their long-range feature capture capabilities. In terms of spatial information aggregation, CNN enhances the receptive field to retain integrated spatial information as much as possible. However, the spectral feature-capturing architectures exhibit low computational efficiency, and CNNs lack the flexibility to perceive spatial contextual information. To address these issues, this paper proposes GraphMamba--an efficient graph structure learning vision Mamba classification framework that fully considers HSI characteristics to achieve deep spatial-spectral information mining. Specifically, we propose a novel hyperspectral visual GraphMamba processing paradigm (HVGM) that preserves spatial-spectral features by constructing spatial-spectral cubes and utilizes linear spectral encoding to enhance the operability of subsequent tasks. The core components of GraphMamba include the HyperMamba module for improving computational efficiency and the SpectralGCN module for adaptive spatial context awareness. The HyperMamba mitigates clutter interference by employing the global mask (GM) and introduces a parallel training inference architecture to alleviate computational bottlenecks. The SpatialGCN incorporates weighted multi-hop aggregation (WMA) spatial encoding to focus on highly correlated spatial structural features, thus flexibly aggregating contextual information while mitigating spatial noise interference. Extensive experiments were conducted on three different scales of real HSI datasets, and compared with the state-of-the-art classification frameworks, GraphMamba achieved optimal performance.
翻訳日:2024-07-12 18:29:17 公開日:2024-07-11
# 拡散型後方サンプリングによる適応圧縮センシング

Adaptive Compressed Sensing with Diffusion-Based Posterior Sampling ( http://arxiv.org/abs/2407.08256v1 )

ライセンス: Link先を確認
Noam Elata, Tomer Michaeli, Michael Elad, (参考訳) 圧縮センシング(CS)は、高忠実度再構成に十分な測定値の小さなサブセットを選択することにより、高速な画像取得を容易にする。 アダプティブCSは、既に取得したデータから得られる情報に基づいて、将来の計測を動的に選択することで、このプロセスをさらに強化しようとしている。 しかし、既存のフレームワークの多くは特定のタスクに合わせており、複雑なトレーニング手順を必要とすることが多い。 AdaSenseは、ゼロショット後部サンプリングと事前学習拡散モデルを利用する新しい適応CSアプローチである。 後続分布から逐次サンプリングを行うことで, 獲得過程を通じて, 各将来の線形測定の不確かさを定量化することができる。 AdaSenseは追加のトレーニングを不要にし、最小のチューニング要件を持つさまざまなドメインへのシームレスな適応を実現している。 本実験は,少数の計測値から顔画像の再構成におけるAdaSenseの有効性を実証するものである。 さらに,磁気共鳴画像(MRI)とCT(CT)の領域における医用画像の能動的取得にAdaSenseを適用し,実世界加速の可能性を強調した。

Compressed Sensing (CS) facilitates rapid image acquisition by selecting a small subset of measurements sufficient for high-fidelity reconstruction. Adaptive CS seeks to further enhance this process by dynamically choosing future measurements based on information gleaned from data that is already acquired. However, many existing frameworks are often tailored to specific tasks and require intricate training procedures. We propose AdaSense, a novel Adaptive CS approach that leverages zero-shot posterior sampling with pre-trained diffusion models. By sequentially sampling from the posterior distribution, we can quantify the uncertainty of each possible future linear measurement throughout the acquisition process. AdaSense eliminates the need for additional training and boasts seamless adaptation to diverse domains with minimal tuning requirements. Our experiments demonstrate the effectiveness of AdaSense in reconstructing facial images from a small number of measurements. Furthermore, we apply AdaSense for active acquisition of medical images in the domains of magnetic resonance imaging (MRI) and computed tomography (CT), highlighting its potential for tangible real-world acceleration.
翻訳日:2024-07-12 18:29:17 公開日:2024-07-11
# 複数の物体が現れる画像から興味領域と大域的意味論を効果的に獲得するための知識蒸留

Knowledge distillation to effectively attain both region-of-interest and global semantics from an image where multiple objects appear ( http://arxiv.org/abs/2407.08257v1 )

ライセンス: Link先を確認
Seonwhee Jin, (参考訳) 畳み込みニューラルネットワーク(CNN)とトランスフォーマーに基づくモデルは着実に改善されている。 また、様々なコンピュータビジョンの下流タスクにも適用されている。 しかし、物体検出タスクでは、画像中の食品のほとんど無限のカテゴリを正確に位置決めし分類することは困難である。 これらの問題に対処するために、私たちはまず、セグメンテーションモデル(SAM)を用いて、食品を関心領域(ROI)として分割し、ROI以外の領域を黒ピクセルとして隠蔽した。 このプロセスは問題を1つの分類に単純化し、アノテーションとトレーニングはオブジェクト検出よりもはるかにシンプルになった。 ROIのみを保存した画像は、インダクティブバイアスを符号化した様々なオフザシェルフモデルを微調整するための入力として入力された。 中でも,データ効率の高い画像変換器(DeiTs)が最も優れた分類性能を示した。 それにもかかわらず、食品の形状や食感が類似する場合、ROIのみの画像の文脈的特徴は正確な分類には不十分であった。 そのため、ROI、外ROI、統合モジュールで構成される新しいタイプの複合アーキテクチャであるRveRNetを導入し、ROIとグローバルコンテキストの両方を説明できるようにしました。 RveRNetのF1スコアは、曖昧な食品画像の分類において、他の個々のモデルよりも10%良かった。 RveRNetのモジュールがCNNの知識蒸留のDeiTであるなら、最善を尽くした。 提案手法は, 置換や転位による入力雑音に対して, 構造を頑健にする方法について検討した。 結果は、CNN教師の知識がDeiTとDeiTの生来の強さにどれだけ蒸留できるかというトレードオフがあることを示唆した。 コードはhttps://github.com/Seonwhee-Genome/RveRNet.comで公開されている。

Models based on convolutional neural networks (CNN) and transformers have steadily been improved. They also have been applied in various computer vision downstream tasks. However, in object detection tasks, accurately localizing and classifying almost infinite categories of foods in images remains challenging. To address these problems, we first segmented the food as the region-of-interest (ROI) by using the segment-anything model (SAM) and masked the rest of the region except ROI as black pixels. This process simplified the problems into a single classification for which annotation and training were much simpler than object detection. The images in which only the ROI was preserved were fed as inputs to fine-tune various off-the-shelf models that encoded their own inductive biases. Among them, Data-efficient image Transformers (DeiTs) had the best classification performance. Nonetheless, when foods' shapes and textures were similar, the contextual features of the ROI-only images were not enough for accurate classification. Therefore, we introduced a novel type of combined architecture, RveRNet, which consisted of ROI, extra-ROI, and integration modules that allowed it to account for both the ROI's and global contexts. The RveRNet's F1 score was 10% better than other individual models when classifying ambiguous food images. If the RveRNet's modules were DeiT with the knowledge distillation from the CNN, performed the best. We investigated how architectures can be made robust against input noise caused by permutation and translocation. The results indicated that there was a trade-off between how much the CNN teacher's knowledge could be distilled to DeiT and DeiT's innate strength. Code is publicly available at: https://github.com/Seonwhee-Genome/RveRNet.
翻訳日:2024-07-12 18:29:17 公開日:2024-07-11
# SALSA: Swiftの適応型軽量自己認識によるLiDAR位置認識

SALSA: Swift Adaptive Lightweight Self-Attention for Enhanced LiDAR Place Recognition ( http://arxiv.org/abs/2407.08260v1 )

ライセンス: Link先を確認
Raktim Gautam Goswami, Naman Patel, Prashanth Krishnamurthy, Farshad Khorrami, (参考訳) 大規模LiDARマッピングとローカライゼーションは、位置認識技術を活用して、ドリフトを緩和し、正確なマッピングを保証する。 これらの技術は、LiDARポイントクラウドからのシーン表現を利用して、データベース内で以前に訪れたサイトを識別する。 ポイントクラウド内の各ポイントに割り当てられたローカルディスクリプタは、ポイントクラウドのシーン表現を形成するために集約される。 これらのディスクリプタは、幾何学的適合度スコアに基づいて取得した点雲を再ランクするためにも使用される。 本稿では,LiDAR位置認識のための新しい,軽量で効率的なフレームワークであるSALSAを提案する。 Sphereformerのバックボーンは、ラジアルウィンドウアテンションを使用して、疎遠点の情報アグリゲーションを可能にし、ローカルディスクリプタをトークンにプールするアダプティブセルフアテンション層と、トークンを集約してシーンディスクリプタを生成するマルチレイヤパーセプトロンミキサ層で構成されている。 提案フレームワークは、リアルタイムに動作しながら、検索とメートル法の両方のローカライゼーションの観点から、様々なLiDAR位置認識データセット上の既存の手法よりも優れている。

Large-scale LiDAR mappings and localization leverage place recognition techniques to mitigate odometry drifts, ensuring accurate mapping. These techniques utilize scene representations from LiDAR point clouds to identify previously visited sites within a database. Local descriptors, assigned to each point within a point cloud, are aggregated to form a scene representation for the point cloud. These descriptors are also used to re-rank the retrieved point clouds based on geometric fitness scores. We propose SALSA, a novel, lightweight, and efficient framework for LiDAR place recognition. It consists of a Sphereformer backbone that uses radial window attention to enable information aggregation for sparse distant points, an adaptive self-attention layer to pool local descriptors into tokens, and a multi-layer-perceptron Mixer layer for aggregating the tokens to generate a scene descriptor. The proposed framework outperforms existing methods on various LiDAR place recognition datasets in terms of both retrieval and metric localization while operating in real-time.
翻訳日:2024-07-12 18:29:17 公開日:2024-07-11
# Verificarlo CI:数値最適化とデバッグのための継続的インテグレーション

Verificarlo CI: continuous integration for numerical optimization and debugging ( http://arxiv.org/abs/2407.08262v1 )

ライセンス: Link先を確認
Aurélien Delval, François Coppens, Eric Petit, Roman Iakymchuk, Pablo de Oliveira Castro, (参考訳) 浮動小数点精度は、数値シミュレーションやその他の計算集約コードを開発する際に重要な問題である。 数値回帰の導入を追跡することは、エンドユーザの予期せぬバグを引き起こすまで、しばしば遅れる。 本稿では,Verificarlo CIを紹介し,その開発過程におけるコードの数値最適化とデバッギングのための継続的インテグレーションワークフローについて述べる。 Verificarlo CIが2つのテストケースアプリケーションに適用可能であることを示す。

Floating-point accuracy is an important concern when developing numerical simulations or other compute-intensive codes. Tracking the introduction of numerical regression is often delayed until it provokes unexpected bug for the end-user. In this paper, we introduce Verificarlo CI, a continuous integration workflow for the numerical optimization and debugging of a code over the course of its development. We demonstrate applicability of Verificarlo CI on two test-case applications.
翻訳日:2024-07-12 18:29:17 公開日:2024-07-11
# 自然言語モデリングとコーディネートシーケンス生成による熱赤外トラッキングの強化

Enhancing Thermal Infrared Tracking with Natural Language Modeling and Coordinate Sequence Generation ( http://arxiv.org/abs/2407.08265v1 )

ライセンス: Link先を確認
Miao Yan, Ping Zhang, Haofei Zhang, Ruqian Hao, Juanxiu Liu, Xiaoyang Wang, Lin Liu, (参考訳) 熱赤外トラッキングは、全天候イメージングの利点から、コンピュータビジョンタスクにおいて重要なトピックである。 しかし,従来の手法では手作りの特徴のみを生かし,深層学習に基づく相関フィルタリングは単純な相関操作によって制限される。 トランスフォーマーベースの手法は、テクスチャや色情報に欠けるTIRトラッキングにとって重要な時間情報や座標情報を無視する。 本稿では、これらの問題に対処するために、自然言語モデリングをTIR追跡に適用し、座標情報と時間情報の利用を向上させるNLMTrackと呼ばれる新しいモデルを提案する。 NLMTrackは、機能抽出と機能融合を統一するエンコーダを適用し、TIR追跡パイプラインを単純化する。 TIR画像の低精細化と低コントラスト化の課題に対処するため,多段階のプログレッシブ・フュージョン・モジュールを設計し,セマンティックな表現を強化し,マルチスケールな特徴を取り入れた。 一方、デコーダは、因果変換器を用いて、TIR特徴と座標系列特徴を組み合わせて、目標シーケンスステップをステップごとに生成する。 さらに,追跡精度の向上を目的とした適応的損失と,ターゲットの外観変化に対応するための簡易なテンプレート更新戦略について検討する。 実験により、NLMTrackは複数のベンチマークで最先端のパフォーマンスを達成することが示された。 コードは \url{https://github.com/ELOESZHANG/NLMTrack} で公開されている。

Thermal infrared tracking is an essential topic in computer vision tasks because of its advantage of all-weather imaging. However, most conventional methods utilize only hand-crafted features, while deep learning-based correlation filtering methods are limited by simple correlation operations. Transformer-based methods ignore temporal and coordinate information, which is critical for TIR tracking that lacks texture and color information. In this paper, to address these issues, we apply natural language modeling to TIR tracking and propose a novel model called NLMTrack, which enhances the utilization of coordinate and temporal information. NLMTrack applies an encoder that unifies feature extraction and feature fusion, which simplifies the TIR tracking pipeline. To address the challenge of low detail and low contrast in TIR images, on the one hand, we design a multi-level progressive fusion module that enhances the semantic representation and incorporates multi-scale features. On the other hand, the decoder combines the TIR features and the coordinate sequence features using a causal transformer to generate the target sequence step by step. Moreover, we explore an adaptive loss aimed at elevating tracking accuracy and a simple template update strategy to accommodate the target's appearance variations. Experiments show that NLMTrack achieves state-of-the-art performance on multiple benchmarks. The Code is publicly available at \url{https://github.com/ELOESZHANG/NLMTrack}.
翻訳日:2024-07-12 18:29:17 公開日:2024-07-11
# 学習自由なオープン語彙セマンティックセマンティックセマンティックセグメンテーションにおけるCLIPの可能性を探る

Explore the Potential of CLIP for Training-Free Open Vocabulary Semantic Segmentation ( http://arxiv.org/abs/2407.08268v1 )

ライセンス: Link先を確認
Tong Shao, Zhuotao Tian, Hang Zhao, Jingyong Su, (参考訳) CLIPはビジョン言語モデルとして、ゼロショット機能を備えたOpen-Vocabulary Semantic Segmentation (OVSS)が大幅に進歩した。 その成功にもかかわらず、OVSSへのその適用は、画像レベルのアライメントトレーニングが、詳細なローカルコンテキストを必要とするタスクのパフォーマンスに影響するため、課題に直面している。 われわれは,CLIPの[CLS]トークンがパッチ特徴相関に与える影響を考察し,局所的特徴識別を妨げる「グローバル」パッチの優位性を明らかにした。 この問題を解決するために、パッチ間の自己相関を補正することで、局所的な特徴認識を高める新しいトレーニング不要なセマンティックセマンティックセマンティクス戦略であるCLIPtraseを提案する。 このアプローチは、セグメンテーションの精度とオブジェクト間のセマンティックコヒーレンスを維持する能力の顕著な改善を示す。実験では、CLIPが9つのセグメンテーションベンチマークで平均で22.3%先行し、既存の最先端のトレーニングフリーメソッドを上回っている。コードは、https://github.com/leaves162/CLIPtraseで公開されています。

CLIP, as a vision-language model, has significantly advanced Open-Vocabulary Semantic Segmentation (OVSS) with its zero-shot capabilities. Despite its success, its application to OVSS faces challenges due to its initial image-level alignment training, which affects its performance in tasks requiring detailed local context. Our study delves into the impact of CLIP's [CLS] token on patch feature correlations, revealing a dominance of "global" patches that hinders local feature discrimination. To overcome this, we propose CLIPtrase, a novel training-free semantic segmentation strategy that enhances local feature awareness through recalibrated self-correlation among patches. This approach demonstrates notable improvements in segmentation accuracy and the ability to maintain semantic coherence across objects.Experiments show that we are 22.3% ahead of CLIP on average on 9 segmentation benchmarks, outperforming existing state-of-the-art training-free methods.The code are made publicly available at: https://github.com/leaves162/CLIPtrase.
翻訳日:2024-07-12 18:29:17 公開日:2024-07-11
# LLMによる複雑なFST生成フィンランド語の形態解析

LLMs' morphological analyses of complex FST-generated Finnish words ( http://arxiv.org/abs/2407.08269v1 )

ライセンス: Link先を確認
Anssi Moisio, Mathias Creutz, Mikko Kurimo, (参考訳) ルールベースの言語処理システムは、実用性の観点からはニューラルネットワークによって隠蔽されているが、ニューラルネットワークのNLPシステムが実際に人間が使用する文法規則を学ぶかどうかは不明だ。 この研究は、複雑なフィンランドの名詞形式の形態解析のタスクにおいて、最先端のLLMを評価し、この問題に光を当てることを目的としている。 我々は、FSTツールを用いてフォームを生成し、LLMのトレーニングセットで発生することはありそうにないため、形態的一般化能力を必要とする。 また, GPT-3.5-turbo と Llama2-70B と Poro-34B はほぼ完全に故障している。

Rule-based language processing systems have been overshadowed by neural systems in terms of utility, but it remains unclear whether neural NLP systems, in practice, learn the grammar rules that humans use. This work aims to shed light on the issue by evaluating state-of-the-art LLMs in a task of morphological analysis of complex Finnish noun forms. We generate the forms using an FST tool, and they are unlikely to have occurred in the training sets of the LLMs, therefore requiring morphological generalisation capacity. We find that GPT-4-turbo has some difficulties in the task while GPT-3.5-turbo struggles and smaller models Llama2-70B and Poro-34B fail nearly completely.
翻訳日:2024-07-12 18:29:17 公開日:2024-07-11
# SciQu: 自動運転実験室における自動文献マイニングによる材料特性予測

SciQu: Accelerating Materials Properties Prediction with Automated Literature Mining for Self-Driving Laboratories ( http://arxiv.org/abs/2407.08270v1 )

ライセンス: Link先を確認
Anand Babu, (参考訳) バンドギャップ, 比抵抗, ヤング率, 作業関数, 屈折率などの特定の特性を予測するために異なる材料特性を評価することは, 材料科学に基づく応用の基本的な要件である。 しかし、このプロセスは時間がかかり、多くの文献レビューと多数の実験を必要とすることが多い。 本研究は,機械学習を利用して材料特性を高精度かつ効率的に解析することにより,これらの課題に対処する。 データ抽出を自動化し、抽出した情報を用いて機械学習モデルを訓練することにより、開発したSciQuは材料特性を最適化する。 概念実証として,SciQuを用いた多数の研究論文から抽出したデータを用いて,Root Mean Square Error (RMSE) 0.068およびR2 0.94を用いて,空間群,体積,バンドギャップなどの入力記述子を考慮した材料屈折率を予測した。 したがって、SciQuは材料の性質を予測するだけでなく、合成パラメータを最適化して入力パラメータの正確な形状、大きさ、位相を達成することで、自動運転研究所において重要な役割を果たす。

Assessing different material properties to predict specific attributes, such as band gap, resistivity, young modulus, work function, and refractive index, is a fundamental requirement for materials science-based applications. However, the process is time-consuming and often requires extensive literature reviews and numerous experiments. Our study addresses these challenges by leveraging machine learning to analyze material properties with greater precision and efficiency. By automating the data extraction process and using the extracted information to train machine learning models, our developed model, SciQu, optimizes material properties. As a proof of concept, we predicted the refractive index of materials using data extracted from numerous research articles with SciQu, considering input descriptors such as space group, volume, and bandgap with Root Mean Square Error (RMSE) 0.068 and R2 0.94. Thus, SciQu not only predicts the properties of materials but also plays a key role in self-driving laboratories by optimizing the synthesis parameters to achieve precise shape, size, and phase of the materials subjected to the input parameters.
翻訳日:2024-07-12 18:29:17 公開日:2024-07-11
# 共形予測を用いたガウス過程補間:方法と比較解析

Gaussian process interpolation with conformal prediction: methods and comparative analysis ( http://arxiv.org/abs/2407.08271v1 )

ライセンス: Link先を確認
Aurélien Pion, Emmanuel Vazquez, (参考訳) 本稿では、予測区間の校正を強化するために、ガウス過程(GP)補間のための共形予測法(CP)の利用を提唱する。 まず,パラメータが最大値で選択されたGPモデルを用いることで,最適に校正されていない予測がしばしば得られることを示す。 CP法は予測間隔を調整でき、基礎となるGPモデルの精度を維持しながら不確実性を定量化できる。 異なるCP変種を比較し、非対称スコアに基づく新しい変種を導入する。 数値実験により, CP法が精度を損なうことなくキャリブレーションの改善に有効であることを実証した。 本研究は,GPコミュニティにおけるCPメソッドの採用を促進することを目的としている。

This article advocates the use of conformal prediction (CP) methods for Gaussian process (GP) interpolation to enhance the calibration of prediction intervals. We begin by illustrating that using a GP model with parameters selected by maximum likelihood often results in predictions that are not optimally calibrated. CP methods can adjust the prediction intervals, leading to better uncertainty quantification while maintaining the accuracy of the underlying GP model. We compare different CP variants and introduce a novel variant based on an asymmetric score. Our numerical experiments demonstrate the effectiveness of CP methods in improving calibration without compromising accuracy. This work aims to facilitate the adoption of CP methods in the GP community.
翻訳日:2024-07-12 18:29:17 公開日:2024-07-11
# PowerYOLO:イベントデータを用いたハードウェア効率の良い物体検出のための混合精度モデル

PowerYOLO: Mixed Precision Model for Hardware Efficient Object Detection with Event Data ( http://arxiv.org/abs/2407.08272v1 )

ライセンス: Link先を確認
Dominika Przewlocka-Rus, Tomasz Kryjak, Marek Gorgon, (参考訳) 自動車ソリューションにおける物体検出システムの性能は、最小限の応答時間で可能な限り高くなければならない。 このようなソリューションを設計する場合、我々は、高メモリのアルゴリズムと計算複雑性を小さな低消費電力デバイスに適合させるという問題という、組み込みビジョンシステムに典型的な課題に直面している。 本稿では,その3つの重要な要素を対象とする混合精度ソリューションPowerYOLOを提案する。 まず,新しいセンサであるダイナミック・ビジョン・センサ(DVS)に基づくシステムを提案する。 イベントカメラが、いくつかのアプリケーションでフレームカメラよりも優先的に選択できるのは、これらの機能である。 第2に,高い精度,低メモリ,計算量を確保するため,YOLO検出器の畳み込み重み付けに4ビット幅のPowers-of-Two(PoT)量子化法を提案する。 最後に、PoT方式を採用し、ビットシフトによる乗算を置き換え、特別な畳み込みバッチ正規化融合方式により、そのような解のハードウェアアクセラレーションの効率を向上する。 PoT量子化と特別なバッチ正規化融合による特定のセンサの使用は、メモリの複雑さを約8倍に減らし、計算を単純化するユニークなシステムをもたらす。 この効率的なシステムは, GEN1 DVSデータセット上でのmAP 0.301の高精度化を実現し, 圧縮モデルに対する新たな最先端性を示す。

The performance of object detection systems in automotive solutions must be as high as possible, with minimal response time and, due to the often battery-powered operation, low energy consumption. When designing such solutions, we therefore face challenges typical for embedded vision systems: the problem of fitting algorithms of high memory and computational complexity into small low-power devices. In this paper we propose PowerYOLO - a mixed precision solution, which targets three essential elements of such application. First, we propose a system based on a Dynamic Vision Sensor (DVS), a novel sensor, that offers low power requirements and operates well in conditions with variable illumination. It is these features that may make event cameras a preferential choice over frame cameras in some applications. Second, to ensure high accuracy and low memory and computational complexity, we propose to use 4-bit width Powers-of-Two (PoT) quantisation for convolution weights of the YOLO detector, with all other parameters quantised linearly. Finally, we embrace from PoT scheme and replace multiplication with bit-shifting to increase the efficiency of hardware acceleration of such solution, with a special convolution-batch normalisation fusion scheme. The use of specific sensor with PoT quantisation and special batch normalisation fusion leads to a unique system with almost 8x reduction in memory complexity and vast computational simplifications, with relation to a standard approach. This efficient system achieves high accuracy of mAP 0.301 on the GEN1 DVS dataset, marking the new state-of-the-art for such compressed model.
翻訳日:2024-07-12 18:29:17 公開日:2024-07-11
# RB-SQL: テキスト・トゥ・SQLのための検索ベースのLLMフレームワーク

RB-SQL: A Retrieval-based LLM Framework for Text-to-SQL ( http://arxiv.org/abs/2407.08273v1 )

ライセンス: Link先を確認
Zhenhe Wu, Zhongqiu Li, Jie Zhang, Mengxiang Li, Yu Zhao, Ruiyu Fang, Zhongjiang He, Xuelong Li, Zhoujun Li, Shuangyong Song, (参考訳) 文脈内学習を伴う大規模言語モデル(LLM)は、テキスト対SQLタスクのパフォーマンスを大幅に改善した。 これまでの作業は一般的に、LLMの推論能力を改善するために排他的なSQL生成プロンプトを使用することに重点を置いていた。 しかし、多くのテーブルや列を持つ大規模なデータベースを扱うことはほとんど難しく、通常、事前処理データベースの重要性を無視し、より効率的なプロンプトエンジニアリングのために貴重な情報を抽出する。 提案するRB-SQLは,簡潔なテーブルと列をスキーマとして検索する3つのモジュールと,コンテキスト内学習のためのターゲット例からなる,コンテキスト内プロンプトエンジニアリングのための新しいLLMフレームワークである。 実験により,我々のモデルは,公開データセットのBIRDとSpiderの競合ベースラインよりも優れた性能が得られることが示された。

Large language models (LLMs) with in-context learning have significantly improved the performance of text-to-SQL task. Previous works generally focus on using exclusive SQL generation prompt to improve the LLMs' reasoning ability. However, they are mostly hard to handle large databases with numerous tables and columns, and usually ignore the significance of pre-processing database and extracting valuable information for more efficient prompt engineering. Based on above analysis, we propose RB-SQL, a novel retrieval-based LLM framework for in-context prompt engineering, which consists of three modules that retrieve concise tables and columns as schema, and targeted examples for in-context learning. Experiment results demonstrate that our model achieves better performance than several competitive baselines on public datasets BIRD and Spider.
翻訳日:2024-07-12 18:19:14 公開日:2024-07-11
# リモートセンシングによるサブフィールドレベル作物収量予測の説明可能性

Explainability of Sub-Field Level Crop Yield Prediction using Remote Sensing ( http://arxiv.org/abs/2407.08274v1 )

ライセンス: Link先を確認
Hiba Najjar, Miro Miranda, Marlon Nuske, Ribana Roscher, Andreas Dengel, (参考訳) 作物の収量予測は、食料安全保障に対する懸念の高まりと政策立案者や農家の意思決定を導く上で重要な役割を担っている。 ディープラーニングを採用する場合、モデルの学習と意思決定プロセス、および入力データとの相互作用を理解することは、モデルの信頼性を確立し、信頼性について洞察を得ることに不可欠である。 本研究では,アルゼンチン,ウルグアイ,ドイツにおけるダイズ,小麦,ラピセド作物の収量予測の課題に焦点を当てた。 我々の目標は、衛星画像の大規模なデータセット、追加のデータモダリティ、収量マップを用いて、これらの作物の予測モデルを開発し、説明することである。 我々は、長期記憶ネットワークを用いて、衛星データの異なる時間的サンプリングと、より関連性の高いモダリティの追加による影響を調査する。 モデル説明可能性について,入力特徴量の定量化,重要な成長段階の同定,フィールドレベルでの収量変動の解析,精度の低い予測を行う。 モデリング結果は、より多くのモダリティを追加したり、利用可能なすべての衛星データのインスタンスを使用したりすることで改善される。 その結果, 作物や地域ごとに特徴的重要パターンが明らかとなった。 さらに, 予測における最も影響力のある成長段階は, 入力データの時間的サンプリングに依存することがわかった。 農学・作物開発におけるこれらの重要な成長段階が,既存の農学・作物開発生物学の文献とどのように密接に一致しているかを実証した。

Crop yield forecasting plays a significant role in addressing growing concerns about food security and guiding decision-making for policymakers and farmers. When deep learning is employed, understanding the learning and decision-making processes of the models, as well as their interaction with the input data, is crucial for establishing trust in the models and gaining insight into their reliability. In this study, we focus on the task of crop yield prediction, specifically for soybean, wheat, and rapeseed crops in Argentina, Uruguay, and Germany. Our goal is to develop and explain predictive models for these crops, using a large dataset of satellite images, additional data modalities, and crop yield maps. We employ a long short-term memory network and investigate the impact of using different temporal samplings of the satellite data and the benefit of adding more relevant modalities. For model explainability, we utilize feature attribution methods to quantify input feature contributions, identify critical growth stages, analyze yield variability at the field level, and explain less accurate predictions. The modeling results show an improvement when adding more modalities or using all available instances of satellite data. The explainability results reveal distinct feature importance patterns for each crop and region. We further found that the most influential growth stages on the prediction are dependent on the temporal sampling of the input data. We demonstrated how these critical growth stages, which hold significant agronomic value, closely align with the existing literature in agronomy and crop development biology.
翻訳日:2024-07-12 18:19:14 公開日:2024-07-11
# StixelNExT:物体分割と自由空間検出のための単眼低ウェイト知覚に向けて

StixelNExT: Toward Monocular Low-Weight Perception for Object Segmentation and Free Space Detection ( http://arxiv.org/abs/2407.08277v1 )

ライセンス: Link先を確認
Marcel Vosshans, Omar Ait-Aider, Youcef Mezouar, Markus Enzweiler, (参考訳) そこで本研究では,単眼画像からの汎用オブジェクトセグメンテーションの新たなアプローチを提案し,手動でラベル付けしたトレーニングデータの必要性を排除し,最小限のデータによる迅速かつ直接的なトレーニングと適応を可能にする。 我々のモデルは、トレーニングプロセス中にLiDARから学習し、その後システムから取り除かれ、単色画像のみに機能する。 本研究では、Stixel-Worldの概念を活用して、その周囲の中程度の表現を認識する。 我々のネットワークは、2次元の多層Stixel-Worldを直接予測し、画像内の複数の重畳されたオブジェクトを認識し、位置を特定することができる。 比較研究が不十分なため,モジュールに分割し,実験室で自由空間検出を行った。 さらに,LDARデータからStixelsを生成するための改良手法を提案する。

In this work, we present a novel approach for general object segmentation from a monocular image, eliminating the need for manually labeled training data and enabling rapid, straightforward training and adaptation with minimal data. Our model initially learns from LiDAR during the training process, which is subsequently removed from the system, allowing it to function solely on monocular imagery. This study leverages the concept of the Stixel-World to recognize a medium level representation of its surroundings. Our network directly predicts a 2D multi-layer Stixel-World and is capable of recognizing and locating multiple, superimposed objects within an image. Due to the scarcity of comparable works, we have divided the capabilities into modules and present a free space detection in our experiments section. Furthermore, we introduce an improved method for generating Stixels from LiDAR data, which we use as ground truth for our network.
翻訳日:2024-07-12 18:19:14 公開日:2024-07-11
# 資源制約環境における視覚概念を大規模言語モデルにマップする方法の連続学習

Continually Learn to Map Visual Concepts to Large Language Models in Resource-constrained Environments ( http://arxiv.org/abs/2407.08279v1 )

ライセンス: Link先を確認
Clea Rebillard, Julio Hurtado, Andrii Krutsylo, Lucia Passaro, Vincenzo Lomonaco, (参考訳) 非i.d.データのストリームから継続的に学習することは、組み込みデバイスのようなリソース制約のある環境で作業する場合、ディープラーニングにおいてオープンな課題である。 教師付き学習を通じて継続的に更新される視覚モデルは、過度に適合し、破滅的な忘れ込み、バイアスのある表現をしがちである。 一方、大規模言語モデルには、複数の概念とその関係に関する知識が含まれており、より堅牢で情報的かつ一貫性のある学習プロセスを促進することができる。 この研究は、固定言語モデルから抽出された知識空間に視覚表現を連続的に基礎付けるアプローチである連続視覚マッピング(CVM)を提案する。 具体的には、CVMは小さく効率的な視覚モデルを継続的に訓練し、その表現を固定された大言語モデルによって確立された概念空間にマッピングします。 より小さい性質のため、CVMは計算やデータ制約のため、大きな視覚的事前学習モデルの直接適用が不可能な場合に使用することができる。 CVMは5つのベンチマークで最先端の連続学習手法を克服し、計算に制約のあるデバイスでも連続学習における一般化能力に対処するための有望な道を提供する。

Learning continually from a stream of non-i.i.d. data is an open challenge in deep learning, even more so when working in resource-constrained environments such as embedded devices. Visual models that are continually updated through supervised learning are often prone to overfitting, catastrophic forgetting, and biased representations. On the other hand, large language models contain knowledge about multiple concepts and their relations, which can foster a more robust, informed and coherent learning process. This work proposes Continual Visual Mapping (CVM), an approach that continually ground vision representations to a knowledge space extracted from a fixed Language model. Specifically, CVM continually trains a small and efficient visual model to map its representations into a conceptual space established by a fixed Large Language Model. Due to their smaller nature, CVM can be used when directly adapting large visual pre-trained models is unfeasible due to computational or data constraints. CVM overcome state-of-the-art continual learning methods on five benchmarks and offers a promising avenue for addressing generalization capabilities in continual learning, even in computationally constrained devices.
翻訳日:2024-07-12 18:19:14 公開日:2024-07-11
# WayveScenes101: 自動運転における新しいビュー合成のためのデータセットとベンチマーク

WayveScenes101: A Dataset and Benchmark for Novel View Synthesis in Autonomous Driving ( http://arxiv.org/abs/2407.08280v1 )

ライセンス: Link先を確認
Jannik Zürn, Paul Gladkov, Sofía Dudas, Fergal Cotter, Sofi Toteva, Jamie Shotton, Vasiliki Simaiaki, Nikhil Mohan, (参考訳) WayveScenes101は、幾何学やテクスチャを変えることで、多くの動的で変形可能な要素を含む挑戦的な運転シーンに焦点を当てた、新しいビュー合成の最先端化を支援するためのデータセットである。 データセットは、幅広い環境条件と運転シナリオにわたる101の運転シーンで構成されている。 このデータセットは、Wildの運転シーンの再構築をベンチマークするために設計されており、画像グラア、露光の速さ、非常にダイナミックなシーンなど、シーンの再構築方法に固有の多くの課題がある。 生画像とともに、標準データ形式でCOLMAP由来のカメラポーズを含める。 本稿では,トレーニングビューからオフ軸のホールドアウトカメラビューのモデルを評価するための評価プロトコルを提案する。 最後に,天気,日時,交通条件などすべての場面について詳細なメタデータを提供し,シーン特性の詳細なモデル性能の分解を可能にする。 データセットとコードはhttps://github.com/wayveai/wayve_scenes.comで入手できる。

We present WayveScenes101, a dataset designed to help the community advance the state of the art in novel view synthesis that focuses on challenging driving scenes containing many dynamic and deformable elements with changing geometry and texture. The dataset comprises 101 driving scenes across a wide range of environmental conditions and driving scenarios. The dataset is designed for benchmarking reconstructions on in-the-wild driving scenes, with many inherent challenges for scene reconstruction methods including image glare, rapid exposure changes, and highly dynamic scenes with significant occlusion. Along with the raw images, we include COLMAP-derived camera poses in standard data formats. We propose an evaluation protocol for evaluating models on held-out camera views that are off-axis from the training views, specifically testing the generalisation capabilities of methods. Finally, we provide detailed metadata for all scenes, including weather, time of day, and traffic conditions, to allow for a detailed model performance breakdown across scene characteristics. Dataset and code are available at https://github.com/wayveai/wayve_scenes.
翻訳日:2024-07-12 18:19:14 公開日:2024-07-11
# eUDEVS: モデリングとシミュレーションのDEVS理論による実行可能なUML

eUDEVS: Executable UML with DEVS Theory of Modeling and Simulation ( http://arxiv.org/abs/2407.08281v1 )

ライセンス: Link先を確認
José L. Risco-Martín, J. M. Cruz, Saurabh Mittal, Bernard P. Zeigler, (参考訳) システム設計とプロトタイピングのためのモデリングとシミュレーション(M&S)は、今日では産業と学術の両方で行われている。 M&Sは完全に2つの異なる領域であり、特定の目的を持っている。 しかし、これら2つの地域をまとめる場合がほとんどである。 開発されたコードは、モデルとそれを実行する基礎となるシミュレータの両方にしっかりと織り込まれています。 これにより、モデル開発と、開発コードの拡張性に影響を与えるシミュレーションエンジンの両方が制限される。 さらに、ドメイン知識とシミュレーション技術の両方を必要とするため、モデルの開発に多くの時間が費やされます。 統一モデリング言語(UML)は業界で広く受け入れられているが、離散イベント仕様(DEVS)ベースのモデリングはモデルとシミュレータを分離し、モデルを開発するためのよりクリーンな方法論を提供する。 DEVSは現在、離散イベントモデリングを非常に詳細なレベルで理解し、要件をDEVSモデリングコードに変換することができるエンジニアによって使用されている。 UMLとDEVSを統合する取り組みは以前からありましたが、これらの2つのモデリングパラダイムに固有の違いがあるため、トランスフォーメーションメカニズムの提供には成功していません。 本稿では,DeVSに基づく実行可能なUMLを表すeUDEVSを用いて,UMLとDEVSの相互変換に対する統合的なアプローチを提案する。 さらに、得られたDEVSモデルは、XFD-DEVSのW3C XMLスキーマとして利用可能であるFinite Deterministic DEVS(FD-DEVS)と呼ばれるDeVSモデルの特定のクラスに属することを示す。 また、提案したeUDEVSを、システムM&Sのための分岐モデル連続性に基づくライフサイクル方法論を可能にする、DEVS統一プロセスと呼ばれる、はるかに大きな統合フレームワークに組み込んだ。 最後に,提案した概念を完全な例で示す。

Modeling and Simulation (M&S) for system design and prototyping is practiced today both in the industry and academia. M&S are two different areas altogether and have specific objectives. However, most of the times these two separate areas are taken together. The developed code is tightly woven around both the model and the underlying simulator that executes it. This constraints both the model development and the simulation engine that impacts scalability of the developed code. Furthermore, a lot of time is spent in development of a model because it needs both domain knowledge and simulation techniques, which also requires communication among users and developers. Unified Modeling Language (UML) is widely accepted in the industry, whereas Discrete Event Specification (DEVS) based modeling that separates the model and the simulator, provides a cleaner methodology to develop models and is much used in academia. DEVS today is used by engineers who understand discrete event modeling at a much detailed level and are able to translate requirements to DEVS modeling code. There have been earlier efforts to integrate UML and DEVS but they haven't succeeded in providing a transformation mechanism due to inherent differences in these two modeling paradigms. This paper presents an integrated approach towards crosstransformations between UML and DEVS using the proposed eUDEVS, which stands for executable UML based on DEVS. Further, we will also show that the obtained DEVS models belong to a specific class of DEVS models called Finite Deterministic DEVS (FD-DEVS) that is available as a W3C XML Schema in XFD-DEVS. We also put the proposed eUDEVS in a much larger unifying framework called DEVS Unified Process that allows bifurcated model-continuity based lifecycle methodology for systems M&S. Finally, we demonstrate the laid concepts with a complete example.
翻訳日:2024-07-12 18:19:14 公開日:2024-07-11
# 擬似攻撃によるアナログアレーのAoAに基づく物理層認証

AoA-Based Physical Layer Authentication in Analog Arrays under Impersonation Attacks ( http://arxiv.org/abs/2407.08282v1 )

ライセンス: Link先を確認
Muralikrishnan Srinivasan, Linda Senigagliesi, Hui Chen, Arsenia Chorti, Marco Baldi, Henk Wymeersch, (参考訳) 本稿では、アナログアレイ多重出力多重出力(MIMO)システムにおける認証手段として、到着角(AoA)の使用について議論する。 アナログアレイを備えた基地局は、認証されたパイロット送信から推定されるAoAに基づいてユーザを認証し、アクティブアタッカーは送信された信号を操作して偽装攻撃をマウントする。 本研究では,攻撃者側情報の入手によって得られる強度の増大に対する攻撃について検討し,一級分類器を用いたAoA認証の性能評価を行った。 以上の結果から, 検証器におけるコンバインダの知識を持つ攻撃手法は, AoAの改ざんや, 検討対象の物理層認証のセキュリティ向上に有効であることが示唆された。

We discuss the use of angle of arrival (AoA) as an authentication measure in analog array multiple-input multiple-output (MIMO) systems. A base station equipped with an analog array authenticates users based on the AoA estimated from certified pilot transmissions, while active attackers manipulate their transmitted signals to mount impersonation attacks. We study several attacks of increasing intensity (captured through the availability of side information at the attackers) and assess the performance of AoA-based authentication using one-class classifiers. Our results show that some attack techniques with knowledge of the combiners at the verifier are effective in falsifying the AoA and compromising the security of the considered type of physical layer authentication.
翻訳日:2024-07-12 18:19:14 公開日:2024-07-11
# 商品ハードウェアにおけるハッシュアルゴリズムの性能評価

Performance Evaluation of Hashing Algorithms on Commodity Hardware ( http://arxiv.org/abs/2407.08284v1 )

ライセンス: Link先を確認
Marut Pandya, (参考訳) 入力されたメッセージの簡潔で不規則なダイジェストを提供するために作成されるハッシュ関数は、ブロックチェーンネットワークで使用される主要な暗号プリミティブである。 Hashingはブロックチェーンネットワークで、重要な情報に対して安全かつセキュアな分散リポジトリストレージを提供する、リンクされたブロックリストを作成するために使用されている。 ブロックチェーンネットワークにおけるハッシュ検索問題の独特な性質のため、計算の最も並列化が可能である。 本稿では,一般的なハッシュアルゴリズムBlake3,SHA-256,SHA-512の性能評価を行う。 これらのハッシュアルゴリズムは、デジタル署名、メッセージ認証、パスワードストレージなど、様々なアプリケーションで広く使われている。 次に、ハッシュレート/スループットやメモリ使用量などのアルゴリズムを評価するために使用されるパフォーマンスメトリクスについて論じる。 評価はデスクトップやVMなど,さまざまなハードウェアプラットフォーム上で実施されている。 評価には合成ベンチマークが含まれる。 評価の結果、Blake3はスループットとレイテンシの点でSHA-256とSHA-512の両方を上回っていることがわかった。 しかし、Blake3の性能上の利点は、特定のハードウェアプラットフォームと入力データのサイズによって異なる。 レポートは、パフォーマンス要件とセキュリティ要件に基づいて、所定のアプリケーションに最も適したハッシュアルゴリズムを選択するための推奨事項で締めくくっている。 評価結果は、ハッシュアルゴリズムの性能と安全性を改善するための将来の研究開発活動にも影響を与える。

Hashing functions, which are created to provide brief and erratic digests for the message entered, are the primary cryptographic primitives used in blockchain networks. Hashing is employed in blockchain networks to create linked block lists, which offer safe and secure distributed repository storage for critical information. Due to the unique nature of the hash search problem in blockchain networks, the most parallelization of calculations is possible. This technical report presents a performance evaluation of three popular hashing algorithms Blake3, SHA-256, and SHA-512. These hashing algorithms are widely used in various applications, such as digital signatures, message authentication, and password storage. It then discusses the performance metrics used to evaluate the algorithms, such as hash rate/throughput and memory usage. The evaluation is conducted on a range of hardware platforms, including desktop and VMs. The evaluation includes synthetic benchmarks. The results of the evaluation show that Blake3 generally outperforms both SHA-256 and SHA-512 in terms of throughput and latency. However, the performance advantage of Blake3 varies depending on the specific hardware platform and the size of the input data. The report concludes with recommendations for selecting the most suitable hashing algorithm for a given application, based on its performance requirements and security needs. The evaluation results can also inform future research and development efforts to improve the performance and security of hashing algorithms.
翻訳日:2024-07-12 18:19:14 公開日:2024-07-11
# 心血管データを用いた注意学習による心不全の予測

Predicting Heart Failure with Attention Learning Techniques Utilizing Cardiovascular Data ( http://arxiv.org/abs/2407.08289v1 )

ライセンス: Link先を確認
Ershadul Haque, Manoranjan Paul, Faranak Tohidi, (参考訳) 心臓血管疾患(英: Cardiovascular disease, CVD)は、冠動脈疾患、心不全、脳卒中、高血圧などの疾患を含む、心臓や血管に影響を及ぼす一連の疾患を包含する疾患である。 心臓血管疾患では、心臓不全は死の主な原因の1つであり、また世界中の患者の長期的苦痛でもある。 予測は、心不全を最小化するための治療と介入に非常に有用な危険因子の1つである。 本研究では,EHR(Electronic Health Record)心血管データ(射出率,血清クレアチニン)に注意学習に基づく心不全予測手法を提案する。 さらに,提案手法を微調整するために,学習率の異なる最適化手法を適用した。 血清クレアチニンと溶出分画は、患者の心不全を予測する上で最も重要な2つの特徴である。 計算結果から,0.001学習率のRMSPropオプティマイザは,血清クレアチニンに基づいてより優れた予測を行うことが示された。 一方、SGDオプティマイザと0.01学習率の組み合わせは、射出率の特徴に基づく最適性能を示す。 全体として、提案手法は、LSTMアプローチのような既存の最先端技術と比較して、心不全を予測するのに非常に効果的である。

Cardiovascular diseases (CVDs) encompass a group of disorders affecting the heart and blood vessels, including conditions such as coronary artery disease, heart failure, stroke, and hypertension. In cardiovascular diseases, heart failure is one of the main causes of death and also long-term suffering in patients worldwide. Prediction is one of the risk factors that is highly valuable for treatment and intervention to minimize heart failure. In this work, an attention learning-based heart failure prediction approach is proposed on EHR(electronic health record) cardiovascular data such as ejection fraction and serum creatinine. Moreover, different optimizers with various learning rate approaches are applied to fine-tune the proposed approach. Serum creatinine and ejection fraction are the two most important features to predict the patient's heart failure. The computational result shows that the RMSProp optimizer with 0.001 learning rate has a better prediction based on serum creatinine. On the other hand, the combination of SGD optimizer with 0.01 learning rate exhibits optimum performance based on ejection fraction features. Overall, the proposed attention learning-based approach performs very efficiently in predicting heart failure compared to the existing state-of-the-art such as LSTM approach.
翻訳日:2024-07-12 18:19:14 公開日:2024-07-11
# SGC-Netを用いた車両による点雲シーンのギャップ補完

Gap Completion in Point Cloud Scene occluded by Vehicles using SGC-Net ( http://arxiv.org/abs/2407.08290v1 )

ライセンス: Link先を確認
Yu Feng, Yiming Xu, Yan Xia, Claus Brenner, Monika Sester, (参考訳) 近年のモバイルマッピングシステムの進歩により,都市部における3次元データ取得の効率性と利便性が大幅に向上している。 これらのシステムは、車両に搭載されたLiDARセンサーを使用して、広大な都市景観を捉えている。 しかし、道路側駐車車両による閉塞が原因で、特に道路、歩道、縁石、建物下部のシーン情報が失われることが大きな課題となっている。 本研究では,車両の閉塞によって隠蔽される都市景観のギャップを埋めることのできるモデルを学ぶために,ディープニューラルネットワークを活用した新しいアプローチを提案する。 我々は、空隙のないシーンにおける道路境界に沿って仮想車両モデルを配置し、レイキャストアルゴリズムを用いて、空隙のある新しいシーンを作成する革新的な手法を開発した。 これにより、実世界のトレーニングデータ収集とアノテーションの限界を越えながら、車両の閉塞なしに多様な現実的な都市点雲シーンを生成することができる。 さらに,SGC-Net (Scene Gap Completion Network) を導入し,形状境界やスムーズな表面を包含するエンド・ツー・エンドモデルを提案する。 実験の結果、満点の97.66%が、高密度の地上真理点雲のシーンと比較して5cmの範囲内にあることが明らかとなった。 これらの結果は,車両閉塞による都市景観の空隙完成と再建における提案モデルの有効性を裏付けるものである。

Recent advances in mobile mapping systems have greatly enhanced the efficiency and convenience of acquiring urban 3D data. These systems utilize LiDAR sensors mounted on vehicles to capture vast cityscapes. However, a significant challenge arises due to occlusions caused by roadside parked vehicles, leading to the loss of scene information, particularly on the roads, sidewalks, curbs, and the lower sections of buildings. In this study, we present a novel approach that leverages deep neural networks to learn a model capable of filling gaps in urban scenes that are obscured by vehicle occlusion. We have developed an innovative technique where we place virtual vehicle models along road boundaries in the gap-free scene and utilize a ray-casting algorithm to create a new scene with occluded gaps. This allows us to generate diverse and realistic urban point cloud scenes with and without vehicle occlusion, surpassing the limitations of real-world training data collection and annotation. Furthermore, we introduce the Scene Gap Completion Network (SGC-Net), an end-to-end model that can generate well-defined shape boundaries and smooth surfaces within occluded gaps. The experiment results reveal that 97.66% of the filled points fall within a range of 5 centimeters relative to the high-density ground truth point cloud scene. These findings underscore the efficacy of our proposed model in gap completion and reconstructing urban scenes affected by vehicle occlusions.
翻訳日:2024-07-12 18:19:14 公開日:2024-07-11
# 観測可能な量の非局所ロック:非古典的相関の忠実な記号

Nonlocal Locking of Observable Quantities: A Faithful Signature of Nonclassical Correlations ( http://arxiv.org/abs/2407.08292v1 )

ライセンス: Link先を確認
Mir Alimuddin, Snehasish Roy Chowdhury, Ram Krishna Patra, Subhendu B. Ghosh, Tommaso Tufarelli, Gerardo Adesso, Manik Banik, (参考訳) 複合量子系の非古典性は、アインシュタイン=ポドルスキー=ローゼンの絡み合い、シュリンガーのステアリング、ベルの非局所性が最も有名である。 これらに加えて、量子不協和や仕事不足といった概念から証明されるように、絡み合った量子状態は非古典性を示すこともできる。 本稿では,多部量子状態における非古典的相関を解析するための一般的な枠組みを提案する。 可観測量に残された異なるシグネチャは、合成系の部分部分が別々に、または共同で探索されるかどうかによって、量子状態における非古典性のシグネチャを忠実にキャプチャする異なる量化器を構築するための操作の道を提供する。 線に沿って、観測可能な量の値が非古典的状態の相関でロックされる「観測可能な量の非局所ロック」と呼ばれる興味深い現象を明らかにする。 提案手法は, 複合システムにおける非古典性の検証に対する実験的要求を低減し, 量子熱力学デバイスにおけるエネルギー貯蔵の強化への応用を見出すことができる。

Nonclassicality in composite quantum systems depicts several puzzling manifestations, with Einstein-Podolsky-Rosen entanglement, Schr\"odinger steering, and Bell nonlocality being the most celebrated ones. In addition to those, an unentangled quantum state can also exhibit nonclassicality, as evidenced from notions such as quantum discord and work deficit. Here, we propose a general framework to investigate nonclassical correlations in multipartite quantum states. The distinct signatures left on observable quantities, depending on whether the sub-parts of a composite system are probed separately or jointly, provide an operational avenue to construct different quantifiers that faithfully capture signatures of nonclassicality in quantum states. Along the line we unveil an intriguing phenomenon referred to as `nonlocal locking of observable quantities', where the value of an observable quantity gets locked in the correlation of a nonclassical state. Our approach reduces the experimental demand for verification of nonclassicality in composite systems and can find applications for enhanced energy storage in quantum thermodynamical devices.
翻訳日:2024-07-12 18:19:14 公開日:2024-07-11
# Q-GaLore: INT4投影と層適応低ランク勾配を用いた量子化GaLore

Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients ( http://arxiv.org/abs/2407.08296v1 )

ライセンス: Link先を確認
Zhenyu Zhang, Ajay Jaiswal, Lu Yin, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang, (参考訳) 大規模言語モデル(LLM)の訓練は、多数のパラメータと関連する最適化状態のためにメモリ集約的である。 最近のGaLoreは、性能を損なうことなく、低ランクのサブスペースに重み勾配を投影することでメモリ使用量を削減している。 しかし、GaLoreはサブスペースを特定するために時間を要するSingular Value Decomposition(SVD)操作に依存しており、頻繁なサブスペース更新はトレーニング時間を大幅に上回っている。 さらに、GaLoreは、よりアクセスしやすい微調整シナリオにおいて、LoRAと比較して、精度と効率の最小限の改善を提供する。 量子化と低ランクプロジェクションを組み合わせることでメモリ使用量を大幅に削減し,GaLoreの利点を上回る新たなアプローチであるQ-Galoreを導入する。 私たちの手法は2つの重要な観測に基づいています。 (i)勾配部分空間は、訓練初期に収束する層や頻繁な変化を受ける層など、多様な特性を示す。 (ii)プロジェクション行列は低ビット量子化に対して高い弾力性を持つ。 これらの知見を活用して、Q-GaLoreは収束統計に基づいて勾配部分空間を適応的に更新し、SVD演算数を著しく削減し、同等のパフォーマンスを達成する。 我々は INT4 フォーマットの射影行列と INT8 フォーマットの重みを維持し, 累積勾配情報の収集に確率的ラウンドリングを取り入れた。 このアプローチは、低精度の重みのみを用いた高精度な訓練軌道を可能にする。 本稿では,Q-GaLoreがメモリ効率に優れた競合性能を実現することを実証する。 事前トレーニングでは、Q-GaLoreは16GBのメモリしか持たない単一のNVIDIA RTX 4060 Ti上で、LLaMA-7Bモデルのスクラッチからのトレーニングを容易にする。 微調整では、同じメモリコストでQLoRAを一貫して上回りながら、LoRAやGaLoreと比較して最大50%のメモリ消費を削減できる。

Training Large Language Models (LLMs) is memory-intensive due to the large number of parameters and associated optimization states. GaLore, a recent method, reduces memory usage by projecting weight gradients into a low-rank subspace without compromising performance. However, GaLore relies on time-consuming Singular Value Decomposition (SVD) operations to identify the subspace, and the frequent subspace updates lead to significant training time overhead. Moreover, GaLore offers minimal improvements in accuracy and efficiency compared to LoRA in more accessible fine-tuning scenarios. To address these limitations, we introduce Q-Galore, a novel approach that substantially reduces memory usage by combining quantization and low-rank projection, surpassing the benefits of GaLore. Our method is based on two key observations: (i) the gradient subspace exhibits diverse properties, with some layers converging early in training while others are subject to frequent changes; (ii) the projection matrices are highly resilient to low-bit quantization. Leveraging these insights, Q-GaLore adaptively updates the gradient subspace based on its convergence statistics, achieving comparable performance while significantly reducing the number of SVD operations. We maintain the projection matrices in INT4 format and weights in INT8 format, incorporating stochastic rounding to capture accumulated gradient information. This approach enables a high-precision training trajectory using only low-precision weights. We demonstrate that Q-GaLore achieves highly competitive performance with exceptional memory efficiency. At pre-training, Q-GaLore facilitates training a LLaMA-7B model from scratch on a single NVIDIA RTX 4060 Ti with only 16 GB memory. At fine-tuning, it reduces memory consumption by up to 50% compared to LoRA and GaLore, while consistently outperforming QLoRA at the same memory cost.
翻訳日:2024-07-12 18:19:14 公開日:2024-07-11
# 固有状態熱化仮説における対角要素と対角要素のトレードオフ

The trade-off between diagonal and off-diagonal elements in the eigenstate thermalization hypothesis ( http://arxiv.org/abs/2407.08297v1 )

ライセンス: Link先を確認
Zhiqiang Huang, (参考訳) 固有状態熱化仮説 (ETH) の証明において, 局所測定を中間量として回避するために, 測定非依存の判別可能性尺度を提案した。 本稿では,この測度と他のいくつかのETH測度との接続を,より統一的な方法で確立する。 まず、この測度の対角的および対角的要素に対する普遍的なトレードオフ関係を証明します。 次に、固有状態の典型性と平均可観測性に関する議論に拡張する。 トレードオフ関係では、対角要素の指数的な増加は対角要素の値を直接抑制し、対角要素も間接的に抑制する。 この関係は、ETHの背後にある物理的なメカニズムを理解する別の視点を与える。 最後に, 1次元イジングスピン鎖の数値計算により, いくつかのトレードオフ関係と強弱ETHについて検討する。

In order to bypass the local measurement as an intermediate quantity in the proof of the eigenstate thermalization hypothesis (ETH), we have proposed a measurement-independent distinguishability measure. In this paper, we establish the connection between this measure and several other ETH measures in a more unified way. We first prove a universal trade-off relation for the diagonal and off-diagonal elements of the measure. Then we extend it to the discussion of eigenstate typicality and the average observable. In the trade-off relationship, the exponential increase of off-diagonal elements will directly suppress the value of off-diagonal elements, and the diagonal elements will also be suppressed indirectly. This relationship gives another perspective to understand the physical mechanism behind ETH. Finally, by numerically calculating one-dimensional Ising spin chain, we examine several trade-off relationships and strong and weak ETH.
翻訳日:2024-07-12 18:19:14 公開日:2024-07-11
# 作物地図作成のためのXAIガイドによる植生指標の強化

XAI-Guided Enhancement of Vegetation Indices for Crop Mapping ( http://arxiv.org/abs/2407.08298v1 )

ライセンス: Link先を確認
Hiba Najjar, Francisco Mena, Marlon Nuske, Andreas Dengel, (参考訳) 植生指標は、植生の成長と農業活動の効率的な監視を可能にする。 以前の世代の衛星は限られた数のスペクトル帯を捉えており、専門家が設計したいくつかの植生指標はその可能性を利用するのに十分であった。 しかし、新しい世代のマルチスペクトル衛星とハイパースペクトル衛星は追加のバンドを捉えることができるが、まだ効率的に利用されていない。 本研究では,適切な植生指標を選択し,設計するための説明可能なAIベースの手法を提案する。 まず、マルチスペクトル衛星データを用いてディープニューラルネットワークをトレーニングし、最も影響力のあるバンドを特定するために特徴を抽出する。 その後、既存の植生指標を選択したり、特定したバンドを組み込んだり、モデルを再訓練したりします。 我々は、作物分類タスクに対する我々のアプローチを検証する。 本結果から,各指標を用いたモデルでは,各帯域でトレーニングしたベースラインモデルに匹敵する結果が得られた。

Vegetation indices allow to efficiently monitor vegetation growth and agricultural activities. Previous generations of satellites were capturing a limited number of spectral bands, and a few expert-designed vegetation indices were sufficient to harness their potential. New generations of multi- and hyperspectral satellites can however capture additional bands, but are not yet efficiently exploited. In this work, we propose an explainable-AI-based method to select and design suitable vegetation indices. We first train a deep neural network using multispectral satellite data, then extract feature importance to identify the most influential bands. We subsequently select suitable existing vegetation indices or modify them to incorporate the identified bands and retrain our model. We validate our approach on a crop classification task. Our results indicate that models trained on individual indices achieve comparable results to the baseline model trained on all bands, while the combination of two indices surpasses the baseline in certain cases.
翻訳日:2024-07-12 18:19:14 公開日:2024-07-11
# 調音セマンティックスにおける影響対策

Impact Measures for Gradual Argumentation Semantics ( http://arxiv.org/abs/2407.08302v1 )

ライセンス: Link先を確認
Caren Al Anaissy, Jérôme Delobelle, Srdjan Vesic, Bruno Yun, (参考訳) 議論は、議論とその相互作用をモデル化することによって矛盾した情報で推論できる形式主義である。 現在、結果の解釈を促進するために現れた漸進的な意味論や影響尺度が増えている。 影響尺度は、各引数に対して、そのスコアに対する他の引数の影響を評価する。 本稿では,Delobelle と Villata の既存の影響尺度を改良し,Shapley の値に根ざした新しい影響尺度を提案する。 我々はこれらの2つの影響尺度をよく知られた漸進的意味論で評価するためのいくつかの原則を導入する。 この包括的な分析は、機能と望ましさに関する深い洞察を提供する。

Argumentation is a formalism allowing to reason with contradictory information by modeling arguments and their interactions. There are now an increasing number of gradual semantics and impact measures that have emerged to facilitate the interpretation of their outcomes. An impact measure assesses, for each argument, the impact of other arguments on its score. In this paper, we refine an existing impact measure from Delobelle and Villata and introduce a new impact measure rooted in Shapley values. We introduce several principles to evaluate those two impact measures w.r.t. some well-known gradual semantics. This comprehensive analysis provides deeper insights into their functionality and desirability.
翻訳日:2024-07-12 18:19:14 公開日:2024-07-11
# DenseFusion-1M:総合マルチモーダル認識のための統合ビジョンエキスパート

DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception ( http://arxiv.org/abs/2407.08303v1 )

ライセンス: Link先を確認
Xiaotong Li, Fan Zhang, Haiwen Diao, Yueze Wang, Xinlong Wang, Ling-Yu Duan, (参考訳) 既存のMLLM(Multimodal Large Language Models)は、複数のオブジェクト、テキスト情報、空間関係など、様々な視覚要素の複雑な理解を強調している。 包括的視覚知覚のための彼らの開発は、多様な視覚要素と画像記述全体を提供する高品質な画像テキストデータセットの可用性に焦点をあてている。 しかし、そのような超詳細なデータセットの不足は、MLLMコミュニティ内での進歩を妨げる。 このボトルネックは、現在のキャプションエンジンの知覚能力の限界に起因している。 そこで我々は,MLLMの包括的視覚知覚における最先端の研究を容易にするために,低予算かつ高効率なキャプションエンジンを用いた知覚融合を提案する。 具体的には、知覚融合(Perceptual Fusion)は、視覚要素に関する明確な情報を提供するために、様々な知覚の専門家を画像の先行として統合し、高度なMLLMの知覚能力を模倣するために、効率的なMLLMを中心的なピボットとして採用する。 我々は、未計算のLAIONデータセットから100万個の高精細画像を選択し、DenseFusion-1Mというエンジンを用いて高精細な記述を生成する。 その結果,既存のMLLMの認識能力と認知能力は,特に高解像度画像を入力として,様々な視覚ベンチマークで大幅に向上することがわかった。 データセットとコードはhttps://github.com/baaivision/DenseFusion.comで公開されている。

Existing Multimodal Large Language Models (MLLMs) increasingly emphasize complex understanding of various visual elements, including multiple objects, text information, and spatial relations. Their development for comprehensive visual perception hinges on the availability of high-quality image-text datasets that offer diverse visual elements and throughout image descriptions. However, the scarcity of such hyper-detailed datasets currently hinders progress within the MLLM community. The bottleneck stems from the limited perceptual capabilities of current caption engines, which fall short in providing complete and accurate annotations. To facilitate the cutting-edge research of MLLMs on comprehensive vision perception, we thereby propose Perceptual Fusion, using a low-budget but highly effective caption engine for complete and accurate image descriptions. Specifically, Perceptual Fusion integrates diverse perception experts as image priors to provide explicit information on visual elements and adopts an efficient MLLM as a centric pivot to mimic advanced MLLMs' perception abilities. We carefully select 1M highly representative images from uncurated LAION dataset and generate dense descriptions using our engine, dubbed DenseFusion-1M. Extensive experiments validate that our engine outperforms its counterparts, where the resulting dataset significantly improves the perception and cognition abilities of existing MLLMs across diverse vision-language benchmarks, especially with high-resolution images as inputs. The dataset and code are publicly available at https://github.com/baaivision/DenseFusion.
翻訳日:2024-07-12 18:09:27 公開日:2024-07-11
# Adversarial-MidiBERT:Unbias事前学習とマスクファインチューニングに基づくシンボリック音楽理解モデル

Adversarial-MidiBERT: Symbolic Music Understanding Model Based on Unbias Pre-training and Mask Fine-tuning ( http://arxiv.org/abs/2407.08306v1 )

ライセンス: Link先を確認
Zijian Zhao, (参考訳) 音楽情報検索 (MIR) の重要な要素として,音楽の学習・作成において音楽家やアマチュアを支援できるシンボリック音楽理解 (SMU) が注目されている。 近年,SMUでは,記号的音楽が自然言語と非常に類似しているため,事前学習された言語モデルが広く採用されている。 しかし、性差別、年齢主義、人種差別といった偏見の問題は、トレーニングデータの不均衡分布に起因する事前学習言語モデルで観察されている。 また、下流タスクのパフォーマンスにも大きな影響を与えており、これはSMUでも起こっている。 そこで本稿では,変換器からの双方向エンコーダ表現に基づく記号的音楽理解モデルであるAdversarial-MidiBERTを提案する。 対戦学習に基づくバイアスのない事前学習手法を導入し,学習中のバイアスにつながるトークンの参加を最小化する。 さらに,事前学習と微調整の間のデータギャップを狭めるマスクファインチューニング手法を提案する。 本手法は4つの音楽理解課題において評価し,そのすべてにおいて優れた性能を示す。 私たちのモデルのコードはhttps://github.com/RS2002/Adversarial-MidiBERT.comで公開されています。

As an important part of Music Information Retrieval (MIR), Symbolic Music Understanding (SMU) has gained substantial attention, as it can assist musicians and amateurs in learning and creating music. Recently, pre-trained language models have been widely adopted in SMU because the symbolic music shares a huge similarity with natural language, and the pre-trained manner also helps make full use of limited music data. However, the issue of bias, such as sexism, ageism, and racism, has been observed in pre-trained language models, which is attributed to the imbalanced distribution of training data. It also has a significant influence on the performance of downstream tasks, which also happens in SMU. To address this challenge, we propose Adversarial-MidiBERT, a symbolic music understanding model based on Bidirectional Encoder Representations from Transformers (BERT). We introduce an unbiased pre-training method based on adversarial learning to minimize the participation of tokens that lead to biases during training. Furthermore, we propose a mask fine-tuning method to narrow the data gap between pre-training and fine-tuning, which can help the model converge faster and perform better. We evaluate our method on four music understanding tasks, and our approach demonstrates excellent performance in all of them. The code for our model is publicly available at https://github.com/RS2002/Adversarial-MidiBERT.
翻訳日:2024-07-12 18:09:27 公開日:2024-07-11
# フレンドリージャミングによるラジオフィンガープリントの防止

Preventing Radio Fingerprinting through Friendly Jamming ( http://arxiv.org/abs/2407.08311v1 )

ライセンス: Link先を確認
Muhammad Irfan, Savio Sciancalepore, Gabriele Oligeri, (参考訳) 無線周波数指紋認証は、受信機が暗号ツールを必要とせずに送信機を認識し認証することを可能にする。 認証は送信機のハードウェアに固有の送信信号の特定の特徴を分離することで達成される。 多くの研究は、様々なシナリオや状況においてその性能を最大化するために、無線指紋の有効性と効率を改善することに重点を置いている。 本稿では,新しい視点を探求する。 悪意ある人物によるフィールド内の無線機器の不正な追跡を容易にする無線周波数指紋認証の敵対的利用について検討する。 また,通信路の通信品質を保証しつつ,通信路上の機器の匿名性を改善する目的で配置されたジャマーを用いて,指紋の送信信号を消毒する方法を提案する。 実験結果とその後の分析により、無線リンクの品質に影響を与えることなく、悪意のある盗聴者の認識と追跡を効果的にブロックできることが示され、無線スペクトルにアクセスする際のユーザのプライバシが復元される。

Radio Frequency fingerprinting enables a passive receiver to recognize and authenticate a transmitter without the need for cryptographic tools. Authentication is achieved by isolating specific features of the transmitted signal that are unique to the transmitter's hardware. Much research has focused on improving the effectiveness and efficiency of radio frequency fingerprinting to maximize its performance in various scenarios and conditions, while little research examined how to protect devices from being subject to radio fingerprinting in the wild. In this paper, we explore a novel point of view. We examine the hostile usage of radio frequency fingerprinting, which facilitates the unauthorized tracking of wireless devices in the field by malicious entities. We also suggest a method to sanitize the transmitted signal of its fingerprint using a jammer, deployed on purpose to improve devices' anonymity on the channel while still guaranteeing the link's quality of service. Our experimental results and subsequent analysis demonstrate that a friendly jammer can effectively block a malicious eavesdropper from recognizing and tracking a device without affecting the quality of the wireless link, thereby restoring the privacy of the user when accessing the radio spectrum.
翻訳日:2024-07-12 18:09:27 公開日:2024-07-11
# 幾何学的GNNによる分子モデルの改良 : 実証的研究

Improving Molecular Modeling with Geometric GNNs: an Empirical Study ( http://arxiv.org/abs/2407.08313v1 )

ライセンス: Link先を確認
Ali Ramlaoui, Théo Saulus, Basile Terver, Victor Schmidt, David Rolnick, Fragkiskos D. Malliaros, Alexandre Duval, (参考訳) 機械学習(ML)の急速な進歩は、材料特性計算を著しく高速化することで、材料科学を変革している。 しかし、MLアプローチの普及により、科学者たちは最も有望な技術に追随することが難しくなった。 本稿では,(1)正準化法,(2)グラフ作成戦略,(3)補助的タスクが性能,スケーラビリティ,対称性に与える影響に着目した3次元原子システムのための幾何学的グラフニューラルネットワークに関する実証的研究を行った。 本研究の目的は,分子モデリングタスクに最適なモデリングコンポーネントの選択を研究者に案内することである。

Rapid advancements in machine learning (ML) are transforming materials science by significantly speeding up material property calculations. However, the proliferation of ML approaches has made it challenging for scientists to keep up with the most promising techniques. This paper presents an empirical study on Geometric Graph Neural Networks for 3D atomic systems, focusing on the impact of different (1) canonicalization methods, (2) graph creation strategies, and (3) auxiliary tasks, on performance, scalability and symmetry enforcement. Our findings and insights aim to guide researchers in selecting optimal modeling components for molecular modeling tasks.
翻訳日:2024-07-12 18:09:27 公開日:2024-07-11
# 脳波によるADHD診断の促進--前処理と重要な役割

Enhancing ADHD Diagnosis with EEG: The Critical Role of Preprocessing and Key Features ( http://arxiv.org/abs/2407.08316v1 )

ライセンス: Link先を確認
Sandra García-Ponsoda, Alejandro Maté, Juan Trujillo, (参考訳) 背景:ADHD(Attention-Deficit/Hyper Activity Disorder)は、生活の様々な重要な側面に大きく影響し、正確な診断方法を必要とする神経発達障害である。 電気脳波(EEG)信号はADHDの診断に使用されるが、ノイズやアーチファクトを避けるためには適切な前処理が不可欠である。 方法:本研究はADHDと診断された小児および典型的には(TD)児の脳波データセットを用いた。 4つの前処理技術が適用された: 事前処理なし(Raw)、有限インパルス応答(FIR)フィルタリング、アーティファクト部分空間再構成(ASR)、独立成分分析(ICA)。 脳波記録は, 統計的意義に基づいて抽出され, 選択された。 XGBoost、Support Vector Machine、K-Nearest Neighborsなどの機械学習モデルを使用して分類を行った。 結果: 前処理の欠如により,ノイズによる分類精度が向上した。 対照的に、ASRおよびICA前処理技術は結果の信頼性を著しく向上させた。 セグメンティング脳波記録では,ADHDの症状が時間の経過とともに出現したため,後続のセグメンテーションの精度が向上した。 最も関連性の高い脳波チャンネルはP3,P4,C3であった。 分類の主要な特徴は、クルトーシス、カッツフラクタル次元、デルタ、セタ、アルファバンドのパワースペクトル密度である。 結論:脳波によるADHD診断では,ノイズによるバイアスを防ぐため,効果的な前処理が不可欠である。 本研究は,ADHD診断精度の向上とさらなる研究の基盤となる重要な脳波チャネルと特徴を明らかにする。 今後は、データセットの拡充、前処理方法の精細化、診断精度の向上と臨床用モデルの堅牢性向上に注力する。

Background: Attention-Deficit/Hyperactivity Disorder (ADHD) is a prevalent neurodevelopmental disorder that significantly impacts various key aspects of life, requiring accurate diagnostic methods. Electroencephalogram (EEG) signals are used in diagnosing ADHD, but proper preprocessing is crucial to avoid noise and artifacts that could lead to unreliable results. Method: This study utilized a public EEG dataset from children diagnosed with ADHD and typically developing (TD) children. Four preprocessing techniques were applied: no preprocessing (Raw), Finite Impulse Response (FIR) filtering, Artifact Subspace Reconstruction (ASR), and Independent Component Analysis (ICA). EEG recordings were segmented, and features were extracted and selected based on statistical significance. Classification was performed using Machine Learning models, as XGBoost, Support Vector Machine, and K-Nearest Neighbors. Results: The absence of preprocessing leads to artificially high classification accuracy due to noise. In contrast, ASR and ICA preprocessing techniques significantly improved the reliability of results. Segmenting EEG recordings revealed that later segments provided better classification accuracy, likely due to the manifestation of ADHD symptoms over time. The most relevant EEG channels were P3, P4, and C3. The top features for classification included Kurtosis, Katz fractal dimension, and power spectral density of Delta, Theta, and Alpha bands. Conclusions: Effective preprocessing is essential in EEG-based ADHD diagnosis to prevent noise-induced biases. This study identifies crucial EEG channels and features, providing a foundation for further research and improving ADHD diagnostic accuracy. Future work should focus on expanding datasets, refining preprocessing methods, and enhancing feature interpretability to improve diagnostic accuracy and model robustness for clinical use.
翻訳日:2024-07-12 18:09:27 公開日:2024-07-11
# 超伝導回路における不要寄生相互作用のモデル化と抑制

Modeling and Suppressing Unwanted Parasitic Interactions in Superconducting Circuits ( http://arxiv.org/abs/2407.08318v1 )

ライセンス: Link先を確認
Xuexin Xu, (参考訳) 超伝導量子ビットは、量子コンピュータ構築の最も有望な候補の一つである。 量子ビットコヒーレンスが大幅に改善されているにもかかわらず、フォールトトレラントな量子コンピュータを実現することは、主に不完全なゲートの忠実さのために大きな課題である。 この不整合の重要な原因は結合量子ビット間の寄生的相互作用であり、これは2ビットと3ビットの回路で対処する。 この寄生的相互作用は、計算レベルと非計算レベルの間で曲がり、寄生的ZZ相互作用を引き起こす。 論文はまず、相互作用するトランモンのペアと、容量的に絞られたフラックス量子ビット(CSFQ)に結合されたトランスモンのハイブリッドペアの2つのキュービットの組み合わせでZZ相互作用をゼロにする可能性について研究した。 CSFQ-transmon pair with and without an cross-resonance (CR) gate。 理論と実験の間の強い合意は、静的ZZ相互作用が存在しない状態で99.9%の忠実性を達成するCRゲートのさらなる研究を動機づけた。 CRパルスは静的部分にZZ成分を追加するため、全ZZ相互作用をゼロにする動的ZZ自由と呼ばれる新しい戦略が提案される。 この戦略は完全な絡み合いを可能にするために全トランスモン回路に適用することができる。 これらの知見に基づき,新しい2ビットゲートである寄生自由ゲート(PF)を提案する。 さらに、制御Zゲートの性能を高めるためにZZインタラクションを利用する方法についても論じる。 最後に、2量子ビット以上の回路における2体ZZと3体ZZZの相互作用特性を例に、第3量子ビットが2量子ビットゲート性能に与える影響について検討した。

Superconducting qubits are among the most promising candidates for building quantum computers. Despite significant improvements in qubit coherence, achieving a fault-tolerant quantum computer remains a major challenge, largely due to imperfect gate fidelity. A key source of this infidelity is the parasitic interaction between coupled qubits, which this thesis addresses in two- and three-qubit circuits. This parasitic interaction causes a bending between computational and non-computational levels, leading to a parasitic ZZ interaction. The thesis first investigates the possibility of zeroing the ZZ interaction in two qubit combinations: a pair of interacting transmons, and a hybrid pair of a transmon coupled to a capacitively shunted flux qubit (CSFQ). The theory developed is used to accurately simulate experimental results from our collaborators, who measured a CSFQ-transmon pair with and without a cross-resonance (CR) gate. The strong agreement between theory and experiment motivated further study of a CR gate that achieves 99.9% fidelity in the absence of static ZZ interaction. Since the CR pulse adds an additional ZZ component to the static part, a new strategy called dynamical ZZ freedom is proposed to zero the total ZZ interaction. This strategy can be applied in all-transmon circuits to enable perfect entanglement. Based on these findings, a new two-qubit gate, the parasitic-free (PF) gate, is proposed. Additionally, the thesis explores how to utilize the ZZ interaction to enhance the performance of a controlled-Z gate. Lastly, the impact of a third qubit on two-qubit gate performance is examined, with several examples illustrating the properties of two-body ZZ and three-body ZZZ interactions in circuits with more than two qubits.
翻訳日:2024-07-12 18:09:27 公開日:2024-07-11
# 知的多文書要約による母性事故調査報告からの人種不平等の抽出

Intelligent Multi-Document Summarisation for Extracting Insights on Racial Inequalities from Maternity Incident Investigation Reports ( http://arxiv.org/abs/2407.08322v1 )

ライセンス: Link先を確認
Georgina Cosma, Mohit Kumar Singh, Patrick Waterson, Gyuchan Thomas Jun, Jonathan Back, (参考訳) 医療では、毎年何千もの安全事故が発生するが、これらの事故から学ぶことは効果的に集約されない。 AIを用いたインシデントレポートの分析は、繰り返し発生するパターンを特定し、要因を寄与させることによって害を防ぐ重要な洞察を明らかにする可能性がある。 貴重な情報を収集・抽出するために、自然言語処理(NLP)と機械学習技術を用いて、構造化されていないデータを要約し、マイニングし、システム上の問題や改善のための優先領域に直面する可能性がある。 本稿では,プロセス全体のトレーサビリティを確保しつつ,安全インシデントレポートの集約と解析を容易にするフレームワークであるI-SIRch:CSを提案する。 このフレームワークは、セーフティ・インテリジェンス・リサーチ(SIRch)の分類学を用いた概念アノテーションと、クラスタリング、要約、分析機能を統合する。 I-SIRch:CSは、匿名化母性調査188件のレポートを27のSIRchのヒューマンファクター概念に注釈付けし、注釈付き文を文埋め込みとk-meansクラスタリングを使用してクラスタにグループ化し、ファイルと文IDを介してトレーサビリティを維持する。 各クラスタに対して、オフラインの最先端抽象要約モデル(BART、DistilBART、T5)を用いて要約を生成し、要約品質特性を評価するメトリクスを用いて評価・比較する。 生成された要約は元のファイルと文IDにリンクされ、トレーサビリティを確保し、要約された情報の検証を可能にする。 結果は、BARTが情報的かつ簡潔な要約を作成する上での強みを示している。

In healthcare, thousands of safety incidents occur every year, but learning from these incidents is not effectively aggregated. Analysing incident reports using AI could uncover critical insights to prevent harm by identifying recurring patterns and contributing factors. To aggregate and extract valuable information, natural language processing (NLP) and machine learning techniques can be employed to summarise and mine unstructured data, potentially surfacing systemic issues and priority areas for improvement. This paper presents I-SIRch:CS, a framework designed to facilitate the aggregation and analysis of safety incident reports while ensuring traceability throughout the process. The framework integrates concept annotation using the Safety Intelligence Research (SIRch) taxonomy with clustering, summarisation, and analysis capabilities. Utilising a dataset of 188 anonymised maternity investigation reports annotated with 27 SIRch human factors concepts, I-SIRch:CS groups the annotated sentences into clusters using sentence embeddings and k-means clustering, maintaining traceability via file and sentence IDs. Summaries are generated for each cluster using offline state-of-the-art abstractive summarisation models (BART, DistilBART, T5), which are evaluated and compared using metrics assessing summary quality attributes. The generated summaries are linked back to the original file and sentence IDs, ensuring traceability and allowing for verification of the summarised information. Results demonstrate BART's strengths in creating informative and concise summaries.
翻訳日:2024-07-12 18:09:27 公開日:2024-07-11
# 研究用マルチプラットフォームソーシャルメディアデータセット作成のためのGPTの活用

Leveraging GPT for the Generation of Multi-Platform Social Media Datasets for Research ( http://arxiv.org/abs/2407.08323v1 )

ライセンス: Link先を確認
Henry Tari, Danial Khan, Justus Rutten, Darian Othman, Rishabh Kaushal, Thales Bertaglia, Adriana Iamnitchi, (参考訳) ソーシャルメディアデータセットは、偽情報、影響操作、ソーシャルセンシング、ヘイトスピーチ検出、サイバーいじめ、その他の重要なトピックの研究に不可欠である。 しかしながら、これらのデータセットへのアクセスは、コストやプラットフォーム規制のために制限されることが多い。 そのため、デジタルエコシステムの包括的な理解に不可欠である複数のプラットフォームにまたがるデータセットを取得することは特に困難である。 本稿では,複数のプラットフォームにまたがって語彙的・意味論的に関連するソーシャルメディアデータセットを作成するための,大規模言語モデルの可能性について検討する。 私たちはChatGPTを使用して、2つの実際のデータセットから合成データを生成し、それぞれが3つのソーシャルメディアプラットフォームからの投稿で構成されています。 合成データの語彙的・意味的特性を評価し,実データと比較する。 実験結果から,大規模言語モデルを用いて多プラットフォームソーシャルメディアデータを生成することは有望であることが示唆された。 しかし、出力の忠実性を改善するためにはさらなる強化が必要である。

Social media datasets are essential for research on disinformation, influence operations, social sensing, hate speech detection, cyberbullying, and other significant topics. However, access to these datasets is often restricted due to costs and platform regulations. As such, acquiring datasets that span multiple platforms which are crucial for a comprehensive understanding of the digital ecosystem is particularly challenging. This paper explores the potential of large language models to create lexically and semantically relevant social media datasets across multiple platforms, aiming to match the quality of real datasets. We employ ChatGPT to generate synthetic data from two real datasets, each consisting of posts from three different social media platforms. We assess the lexical and semantic properties of the synthetic data and compare them with those of the real data. Our empirical findings suggest that using large language models to generate synthetic multi-platform social media data is promising. However, further enhancements are necessary to improve the fidelity of the outputs.
翻訳日:2024-07-12 18:09:27 公開日:2024-07-11
# マルコフ決定過程間のカントール・カントロビッチ距離と伝達学習への応用

A Cantor-Kantorovich Metric Between Markov Decision Processes with Application to Transfer Learning ( http://arxiv.org/abs/2407.08324v1 )

ライセンス: Link先を確認
Adrien Banse, Venkatraman Renganathan, Raphaël M. Jungers, (参考訳) 我々は(Banse et al , 2023)によって導入されたマルコフ連鎖間のカントール・カントロヴィチ距離の概念をマルコフ決定過程(MDP)の文脈で拡張する。 提案した計量はよく定義されており、有限の地平線から効率的に近似することができる。 そして、後者の計量が強化学習の分野で興味深い応用につながるという数値的な証拠を提供する。 特に,転送学習アルゴリズムの性能予測に有効であることを示す。

We extend the notion of Cantor-Kantorovich distance between Markov chains introduced by (Banse et al., 2023) in the context of Markov Decision Processes (MDPs). The proposed metric is well-defined and can be efficiently approximated given a finite horizon. Then, we provide numerical evidences that the latter metric can lead to interesting applications in the field of reinforcement learning. In particular, we show that it could be used for forecasting the performance of transfer learning algorithms.
翻訳日:2024-07-12 18:09:27 公開日:2024-07-11
# 母性ケアにおける格差の解消--母性事故調査報告の分析のためのトピックモデリングアプローチ

Unveiling Disparities in Maternity Care: A Topic Modelling Approach to Analysing Maternity Incident Investigation Reports ( http://arxiv.org/abs/2407.08328v1 )

ライセンス: Link先を確認
Georgina Cosma, Mohit Kumar Singh, Patrick Waterson, Gyuchan Thomas Jun, Jonathan Back, (参考訳) 本研究は,医療安全調査部から匿名の母性事故調査報告を解析するために,潜在ディリクレ転位を含む自然言語処理技術を適用した。 報告書は、事前処理、セーフティ・インテリジェンス・リサーチの分類学を用いた注釈、トピック・モデリングを行い、一般的なトピックを明らかにし、民族間における母性ケアの違いを検出する。 オフラインとオンラインの組み合わせは、高度な分析を可能にしながらデータ保護を確保するために利用され、センシティブなデータのオフライン処理と‘Claude 3 Opus’言語モデルを用いた非センシティブなデータのオンライン処理が実現された。 対話型トピック分析とセマンティックネットワーク可視化を用いてテーマトピックの抽出と表示を行い,キーワード間の意味的関係を可視化した。 この分析は、黒人、アジア、白人のイギリス民族に焦点を絞った異なる民族集団間のケアの格差を明らかにした。 本研究は,母子関係調査報告の分析と介護格差の強調におけるトピックモデリングとNLP手法の有効性を実証するものである。 この知見は、母性ケアの質と株式改善における先進的なデータ分析の重要な役割を強調している。

This study applies Natural Language Processing techniques, including Latent Dirichlet Allocation, to analyse anonymised maternity incident investigation reports from the Healthcare Safety Investigation Branch. The reports underwent preprocessing, annotation using the Safety Intelligence Research taxonomy, and topic modelling to uncover prevalent topics and detect differences in maternity care across ethnic groups. A combination of offline and online methods was utilised to ensure data protection whilst enabling advanced analysis, with offline processing for sensitive data and online processing for non-sensitive data using the `Claude 3 Opus' language model. Interactive topic analysis and semantic network visualisation were employed to extract and display thematic topics and visualise semantic relationships among keywords. The analysis revealed disparities in care among different ethnic groups, with distinct focus areas for the Black, Asian, and White British ethnic groups. The study demonstrates the effectiveness of topic modelling and NLP techniques in analysing maternity incident investigation reports and highlighting disparities in care. The findings emphasise the crucial role of advanced data analysis in improving maternity care quality and equity.
翻訳日:2024-07-12 18:09:27 公開日:2024-07-11
# HDT:階層型ドキュメント変換器

HDT: Hierarchical Document Transformer ( http://arxiv.org/abs/2407.08330v1 )

ライセンス: Link先を確認
Haoyu He, Markus Flicke, Jan Buchmann, Iryna Gurevych, Andreas Geiger, (参考訳) 本稿では,階層型文書に適した新しいスパース変換器アーキテクチャである階層型文書変換器(HDT)を提案する。 このような文書は、科学、法学、医学など多くの分野において極めて重要である。 しかし、既存の解のほとんどは非効率であり、文書固有の構造を利用できない。 HDTは補助的なアンカートークンを導入し、アテンション機構をスパースなマルチレベル階層に再設計することでドキュメント構造を利用する。 このアプローチは、分散性を維持しつつ異なるレベルのトークン間の情報交換を容易にし、ドキュメント構造を帰納バイアスとして活用しながら、計算とメモリ効率を向上させる。 文書の階層構造を考慮した新規なスパースアテンションカーネルを開発することにより,HDTのサンプル依存型階層アテンションパターンを実装するという技術的課題に対処する。 実験で実証したように,文書に含まれる構造情報を利用することで,より高速な収束,サンプル効率の向上,下流タスクの性能向上が期待できる。

In this paper, we propose the Hierarchical Document Transformer (HDT), a novel sparse Transformer architecture tailored for structured hierarchical documents. Such documents are extremely important in numerous domains, including science, law or medicine. However, most existing solutions are inefficient and fail to make use of the structure inherent to documents. HDT exploits document structure by introducing auxiliary anchor tokens and redesigning the attention mechanism into a sparse multi-level hierarchy. This approach facilitates information exchange between tokens at different levels while maintaining sparsity, thereby enhancing computational and memory efficiency while exploiting the document structure as an inductive bias. We address the technical challenge of implementing HDT's sample-dependent hierarchical attention pattern by developing a novel sparse attention kernel that considers the hierarchical structure of documents. As demonstrated by our experiments, utilizing structural information present in documents leads to faster convergence, higher sample efficiency and better performance on downstream tasks.
翻訳日:2024-07-12 18:09:27 公開日:2024-07-11
# 大規模言語モデルを用いた説明可能な進化戦略に向けて

Towards Explainable Evolution Strategies with Large Language Models ( http://arxiv.org/abs/2407.08331v1 )

ライセンス: Link先を確認
Jill Baumann, Oliver Kramer, (参考訳) 本稿では,自己適応的進化戦略(ES)と大規模言語モデル(LLM)を統合し,複雑な最適化プロセスの説明可能性を高めるアプローチを提案する。 再起動機構を備えた自己適応型ESを用いることで、ベンチマーク関数の難易度を効果的にナビゲートし、フィットネスの進化、ステップサイズ調整、停滞による再起動イベントを含む最適化過程の詳細なログをキャプチャする。 LLMはこれらのログを処理するために利用され、収束挙動、最適適合達成、局所最適点との遭遇といった重要な側面を強調する簡潔でユーザフレンドリーな要約を生成する。 Rastrigin関数のケーススタディは、我々のアプローチがES最適化の複雑さを透過的でアクセスしやすいものにする方法を示している。 本研究は,高度な最適化アルゴリズムと解釈可能性とのギャップを埋めるためにLLMを使うことの可能性を明らかにする。

This paper introduces an approach that integrates self-adaptive Evolution Strategies (ES) with Large Language Models (LLMs) to enhance the explainability of complex optimization processes. By employing a self-adaptive ES equipped with a restart mechanism, we effectively navigate the challenging landscapes of benchmark functions, capturing detailed logs of the optimization journey, including fitness evolution, step-size adjustments, and restart events due to stagnation. An LLM is then utilized to process these logs, generating concise, user-friendly summaries that highlight key aspects such as convergence behavior, optimal fitness achievements, and encounters with local optima. Our case study on the Rastrigin function demonstrates how our approach makes the complexities of ES optimization transparent and accessible. Our findings highlight the potential of using LLMs to bridge the gap between advanced optimization algorithms and their interpretability.
翻訳日:2024-07-12 18:09:27 公開日:2024-07-11
# SR-Mamba:状態空間モデルを用いた効果的な外科的位相認識

SR-Mamba: Effective Surgical Phase Recognition with State Space Model ( http://arxiv.org/abs/2407.08333v1 )

ライセンス: Link先を確認
Rui Cao, Jiangliu Wang, Yun-Hui Liu, (参考訳) 外科的位相認識は、コンピュータによる介入の効率性と安全性を高めるために重要である。 基本的な課題の1つは、手術ビデオに存在する長距離時間関係をモデル化することである。 本論文は, 連続長の線形拡張性を持つ状態空間モデルであるMambaの成功に触発されて, 外科的位相認識の課題に合わせた, 新たな注意のないモデルSR-Mambaを提案する。 SR-Mambaでは、双方向のMambaデコーダを用いて、時間的コンテキストをオーバーロングシーケンスで効果的にモデル化する。 さらに、提案したMambaデコーダの効率的な最適化により、シングルステップのニューラルネットワークトレーニングが容易になり、以前の作業のように個別のトレーニングステップが不要になる。 この単一ステップのトレーニングアプローチは、トレーニングプロセスを単純化するだけでなく、より軽い空間特徴抽出器でも高い精度を確保する。 我々のSR-Mambaは、Colec80およびCATARACTS Challengeデータセットの最先端性能を示すことによって、外科的ビデオ解析の新たなベンチマークを確立した。 コードはhttps://github.com/rcao-hk/SR-Mambaでアクセスできる。

Surgical phase recognition is crucial for enhancing the efficiency and safety of computer-assisted interventions. One of the fundamental challenges involves modeling the long-distance temporal relationships present in surgical videos. Inspired by the recent success of Mamba, a state space model with linear scalability in sequence length, this paper presents SR-Mamba, a novel attention-free model specifically tailored to meet the challenges of surgical phase recognition. In SR-Mamba, we leverage a bidirectional Mamba decoder to effectively model the temporal context in overlong sequences. Moreover, the efficient optimization of the proposed Mamba decoder facilitates single-step neural network training, eliminating the need for separate training steps as in previous works. This single-step training approach not only simplifies the training process but also ensures higher accuracy, even with a lighter spatial feature extractor. Our SR-Mamba establishes a new benchmark in surgical video analysis by demonstrating state-of-the-art performance on the Cholec80 and CATARACTS Challenge datasets. The code is accessible at https://github.com/rcao-hk/SR-Mamba.
翻訳日:2024-07-12 18:09:27 公開日:2024-07-11
# 連結トラップ関数を用いた遺伝子プール最適混合進化アルゴリズム(GOMEA)の動作解析

Analyzing the Runtime of the Gene-pool Optimal Mixing Evolutionary Algorithm (GOMEA) on the Concatenated Trap Function ( http://arxiv.org/abs/2407.08335v1 )

ライセンス: Link先を確認
Yukai Qiao, Marcus Gallagher, (参考訳) 遺伝子プール最適混合進化アルゴリズム(英: Gene-pool Optimal Mixing Evolutionary Algorithm、GOMEA)は、リンク学習を利用して問題構造を効率的に活用する最先端の進化アルゴリズムである。 変更時に重要なビルディングブロックを特定し保存することにより、GOMEAは様々な最適化問題に対して有望な性能を示した。 本稿では,複数の擬似サブファンクションからなるベンチマーク問題である連結トラップ関数上でのGOMEAの初実行時解析について述べる。 我々は, GOMEA の期待ランタイム上界を真結合モデルで導出し, 高確率で$O(m^{3}2^k)$, $m$ は下関数の数, $k$ は下関数の長さで解けることを示した。 これは (1+1) EA と比較して大きなスピードアップであり、これは$O(ln{(m)}(mk)^{k})$期待される評価を必要とする。

The Gene-pool Optimal Mixing Evolutionary Algorithm (GOMEA) is a state of the art evolutionary algorithm that leverages linkage learning to efficiently exploit problem structure. By identifying and preserving important building blocks during variation, GOMEA has shown promising performance on various optimization problems. In this paper, we provide the first runtime analysis of GOMEA on the concatenated trap function, a challenging benchmark problem that consists of multiple deceptive subfunctions. We derived an upper bound on the expected runtime of GOMEA with a truthful linkage model, showing that it can solve the problem in $O(m^{3}2^k)$ with high probability, where $m$ is the number of subfunctions and $k$ is the subfunction length. This is a significant speedup compared to the (1+1) EA, which requires $O(ln{(m)}(mk)^{k})$ expected evaluations.
翻訳日:2024-07-12 18:09:27 公開日:2024-07-11
# FedLog: コミュニケーションの少ないパーソナライズされたフェデレーション分類と柔軟性向上

FedLog: Personalized Federated Classification with Less Communication and More Flexibility ( http://arxiv.org/abs/2407.08337v1 )

ライセンス: Link先を確認
Haolin Yu, Guojun Zhang, Pascal Poupart, (参考訳) フェデレートラーニング(FL)では、FedAvgが提案し、ほとんどのアルゴリズムが従う共通のパラダイムは、クライアントがローカルモデルをプライベートデータでトレーニングすることであり、モデルパラメータは中央集約のために共有され、ほとんどが平均化である。 このパラダイムでは、現代の大規模ニューラルネットワークは数百万から数十億のパラメータを含むことができるため、通信コストが課題になることが多い。 クライアントはモデルパラメータとローカルデータサマリーを共有せず、共有コストを削減できることを提案する。 我々は,局所データの十分な統計しか共有しないベイズ推定を用いた新しいアルゴリズムであるFedLogを開発した。 FedLogは、元のモデルの最後の層と同じくらい小さなメッセージを送信します。 通信コストの低減を目的とした他のFLアルゴリズムよりも優れた性能を示すための総合的な実験を行った。 正式なプライバシー保証を提供するため、差分プライバシーでFedLogをさらに拡張し、プライバシー予算と精度のトレードオフを示す。

In federated learning (FL), the common paradigm that FedAvg proposes and most algorithms follow is that clients train local models with their private data, and the model parameters are shared for central aggregation, mostly averaging. In this paradigm, the communication cost is often a challenge, as modern massive neural networks can contain millions to billions parameters. We suggest that clients do not share model parameters but local data summaries, to decrease the cost of sharing. We develop a new algorithm FedLog with Bayesian inference, which shares only sufficient statistics of local data. FedLog transmits messages as small as the last layer of the original model. We conducted comprehensive experiments to show we outperform other FL algorithms that aim at decreasing the communication cost. To provide formal privacy guarantees, we further extend FedLog with differential privacy and show the trade-off between privacy budget and accuracy.
翻訳日:2024-07-12 18:09:27 公開日:2024-07-11
# SLRL:マルチビュークラスタリングのための構造化潜在表現学習

SLRL: Structured Latent Representation Learning for Multi-view Clustering ( http://arxiv.org/abs/2407.08340v1 )

ライセンス: Link先を確認
Zhangci Xiong, Meng Cao, (参考訳) 近年,MVC (Multi-View Clustering) が注目されている。 MVCの目的は、異なるビューの固有の一貫性と相補性を利用して、複数の視点からの情報を統合し、クラスタリングの結果を改善することである。 MVCでの広範な研究にもかかわらず、既存のほとんどの手法は、主に、クラスタリングの有効性を高めるために、ビューをまたいだ補完的な情報を活用することに重点を置いており、しばしばサンプル間の構造的な情報を無視する。 そこで我々は,SLRL(Structured Latent Representation Learning based Multi-View Clustering method)と呼ばれる新しいフレームワークを導入する。 SLRLは相補的情報と構造的情報の両方を利用する。 最初は、すべてのビューに対して共通の潜在表現を学ぶ。 その後、サンプル間の構造情報を利用するために、この一般的な潜在表現からk-アネレスト近傍グラフを構築する。 このグラフは、グラフ学習技術によるサンプル相互作用の強化を促進し、クラスタリングに最適化された構造化潜在表現をもたらす。 大規模な実験により、SLRLは既存の手法とよく競合するだけでなく、様々なマルチビューデータセットに新しいベンチマークを設定できることが示された。

In recent years, Multi-View Clustering (MVC) has attracted increasing attention for its potential to reduce the annotation burden associated with large datasets. The aim of MVC is to exploit the inherent consistency and complementarity among different views, thereby integrating information from multiple perspectives to improve clustering outcomes. Despite extensive research in MVC, most existing methods focus predominantly on harnessing complementary information across views to enhance clustering effectiveness, often neglecting the structural information among samples, which is crucial for exploring sample correlations. To address this gap, we introduce a novel framework, termed Structured Latent Representation Learning based Multi-View Clustering method (SLRL). SLRL leverages both the complementary and structural information. Initially, it learns a common latent representation for all views. Subsequently, to exploit the structural information among samples, a k-nearest neighbor graph is constructed from this common latent representation. This graph facilitates enhanced sample interaction through graph learning techniques, leading to a structured latent representation optimized for clustering. Extensive experiments demonstrate that SLRL not only competes well with existing methods but also sets new benchmarks in various multi-view datasets.
翻訳日:2024-07-12 17:59:20 公開日:2024-07-11
# 任意分解能における適応型深部虹彩特徴エクストラクタ

Adaptive Deep Iris Feature Extractor at Arbitrary Resolutions ( http://arxiv.org/abs/2407.08341v1 )

ライセンス: Link先を確認
Yuho Shoji, Yuka Ogino, Takahiro Toizumi, Atsushi Ito, (参考訳) 本稿では,任意の解像度で虹彩認識を行うための深部特徴抽出器を提案する。 分解能劣化は、高解像度画像で訓練されたディープラーニングモデルの認識性能を低下させる。 高解像度画像の認識性能を犠牲にしながら、各種解像度画像のトレーニングによりモデルの堅牢性を向上させることができる。 様々な解像度で高い認識性能を実現するために,自動切替ネットワークを用いた分解能適応特徴抽出法を提案する。 我々のフレームワークには、ダウンサンプリングやアウト・オブ・フォーカスのぼかしなど、様々な分解能劣化に特化した分解能専門家モジュールが含まれています。 入力画像の劣化条件に応じて自動的に切り替える。 低解像度の専門家は、両方の専門家が共通のアイデンティティの特徴を抽出できるように、高解像度の専門家からの知識蒸留によって訓練される。 従来の3つのニューラルネットワークモデルに我々のフレームワークを適用した。 実験結果から,本手法は従来手法の低解像度での認識性能の向上と高解像度での認識性能の維持を図っている。

This paper proposes a deep feature extractor for iris recognition at arbitrary resolutions. Resolution degradation reduces the recognition performance of deep learning models trained by high-resolution images. Using various-resolution images for training can improve the model's robustness while sacrificing recognition performance for high-resolution images. To achieve higher recognition performance at various resolutions, we propose a method of resolution-adaptive feature extraction with automatically switching networks. Our framework includes resolution expert modules specialized for different resolution degradations, including down-sampling and out-of-focus blurring. The framework automatically switches them depending on the degradation condition of an input image. Lower-resolution experts are trained by knowledge-distillation from the high-resolution expert in such a manner that both experts can extract common identity features. We applied our framework to three conventional neural network models. The experimental results show that our method enhances the recognition performance at low-resolution in the conventional methods and also maintains their performance at high-resolution.
翻訳日:2024-07-12 17:59:20 公開日:2024-07-11
# 統計物理学の基礎における量子力学的積分性

Quantum Thermodynamic Integrability for Foundations of Statistical Physics ( http://arxiv.org/abs/2407.08344v1 )

ライセンス: Link先を確認
Ruo-Xun Zhai, C. P. Sun, (参考訳) 第二法則のカラス・エオロディの原理を、体積や磁場などのマクロ変数に依存するエネルギー準位を持つ量子熱力学に拡張する。 この拡張は量子熱力学積分(QTI)の概念を導入し、統計力学の代替基盤を提供する。 QTIの特徴は、熱力学多様体内の仕事と熱の経路依存性であり、エネルギーレベルと特定の熱力学パラメータによって局所的に記述されている。 この枠組みの中で、温度は自然に積分因子として現れ、QTIに基づくエントロピー積分方程式(EIE)から正準分布と非正準分布の両方を導出することができる。 特に、非正準状態は、熱力学限界の外側で特に重要なものとなり、有限サイズの熱力学系における情報相関の存在を明らかにしている。

We extend the Carath\'eodory principle of the Second Law to quantum thermodynamics with energy levels depending on macroscopic variables, such as volume and magnetic field. This extension introduces the concept of Quantum Thermodynamic Integrability (QTI), offering an alternative foundation for statistical mechanics. QTI is characterized by the path-independence of work and heat within the thermodynamic manifold, which is locally described by energy levels and specific thermodynamic parameters. Within this framework, temperature naturally emerges as an integrating factor, allowing for the derivation of both canonical and non-canonical distributions from the Entropy Integrable Equations (EIE) based on QTI. Notably, non-canonical states, which become particularly significant outside the thermodynamic limit, reveal the existence of informational correlations in finite-size thermodynamic systems.
翻訳日:2024-07-12 17:59:20 公開日:2024-07-11
# 垂直分割を用いた蛍光画像のGUIによるペディクルスクリュー計画

GUI-based Pedicle Screw Planning on Fluoroscopic Images Utilizing Vertebral Segmentation ( http://arxiv.org/abs/2407.08347v1 )

ライセンス: Link先を確認
Vivek Maik, Aparna Purayath, Durga R, Manojkumar Lakshmanan, Mohanasankar Sivaprakasm, (参考訳) 提案した研究は、主に術中ペダルスクリュー計画のために設計された新しいGUI(Graphical User Interface)フレームワークを確立する。 Image Guided Surgeriesの現在の計画ワークフローは、主に術前のCT計画に依存している。 術中CTプランニングは時間と費用がかかるため、一般的な実践ではない。 効率性とコスト効率が最優先の状況では、画像登録のために取得したフルオロスコープ画像を活用することが最適な選択として現れる。 本研究は3次元ペプシクルスクリューを用いて,前後方 (AP) 画像と側方 (LP) 画像を用いたペプシクルスクリュー計画のための冠および矢状突起の計算を行う。 強化YOLOv5の適用により得られる椎体分節のバウンディングボックスを用いてペディクルスクリューの初期化および配置を算出する。 GUIフロントエンドには、外科医や医療従事者がAP画像やLP画像上でペダルスクリューを効率的に選択、設定、動的に操作できる機能が含まれている。 これは同期計画と呼ばれる新しい特徴に基づいており、これは冠面と矢状面のペダルスクリューを関連付けるものである。 この相関関係はプロジェクティブ対応を利用して、APまたはLP画像のペプシクルスクリューの運動が他の画像に反映されることを保証する。 提案したGUIフレームワークは,術中手術時のペプシクルスクリューの移動を同期し,計画するための時間効率,費用効率のよいツールである。

The proposed work establishes a novel Graphical User Interface (GUI) framework, primarily designed for intraoperative pedicle screw planning. Current planning workflow in Image Guided Surgeries primarily relies on pre-operative CT planning. Intraoperative CT planning can be time-consuming and expensive and thus is not a common practice. In situations where efficiency and cost-effectiveness are paramount, planning to utilize fluoroscopic images acquired for image registration emerges as the optimal choice. The methodology proposed in this study employs a simulated 3D pedicle screw to calculate its coronal and sagittal projections for pedicle screw planning using anterior-posterior (AP) and lateral (LP) images. The initialization and placement of pedicle screw is computed by utilizing the bounding box of vertebral segmentation, which is obtained by the application of enhanced YOLOv5. The GUI front end includes functionality that allows surgeons or medical practitioners to efficiently choose, set up, and dynamically maneuver the pedicle screw on AP and LP images. This is based on a novel feature called synchronous planning, which involves correlating pedicle screws from the coronal and sagittal planes. This correlation utilizes projective correspondence to ensure that any movement of the pedicle screw in either the AP or LP image will be reflected in the other image. The proposed GUI framework is a time-efficient and cost-effective tool for synchronizing and planning the movement of pedicle screws during intraoperative surgical procedures.
翻訳日:2024-07-12 17:59:20 公開日:2024-07-11
# Skywork-Math: 大規模言語モデルにおける数学的推論のためのデータスケーリング法則

Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On ( http://arxiv.org/abs/2407.08348v1 )

ライセンス: Link先を確認
Liang Zeng, Liangjun Zhong, Liang Zhao, Tianwen Wei, Liu Yang, Jujie He, Cheng Cheng, Rui Hu, Yang Liu, Shuicheng Yan, Han Fang, Yahui Zhou, (参考訳) 本稿では,大規模言語モデル(LLM)の数学的推論能力を高める要因について検討する。 我々は、現代のLSMにおける数学推論能力のデータスケーリング法則は、データ量の増加とともにモデルの品質がどのように改善されるかを強調し、飽和状態には程遠いと論じる。 この主張を支持するために、2.5M-instance Skywork-MathQAデータセットを用いて、一般的な7B LLM上での微調整(SFT)を行うSkywork-Mathモデルシリーズを紹介した。 Skywork-Math 7Bは、競合レベルのMATHベンチマークで51.2%、SFTデータのみを使用してGSM8Kベンチマークで83.9%、MATH上でのGPT-4の初期バージョンよりも優れた精度を達成した。 Skywork-Mathモデルの優れた性能は、新しい2段階のデータ合成およびモデルSFTパイプラインに寄与する。これは、3つの異なる拡張方法と多様なシード問題セットを含み、Skywork-MathQAデータセットの量と品質を様々な難易度で保証する。 最も重要なことは、LLMの数学推論能力を高めるために、研究用および産業用の両方にいくつかの実践的な取組を提供していることである。

In this paper, we investigate the underlying factors that potentially enhance the mathematical reasoning capabilities of large language models (LLMs). We argue that the data scaling law for math reasoning capabilities in modern LLMs is far from being saturated, highlighting how the model's quality improves with increases in data quantity. To support this claim, we introduce the Skywork-Math model series, supervised fine-tuned (SFT) on common 7B LLMs using our proposed 2.5M-instance Skywork-MathQA dataset. Skywork-Math 7B has achieved impressive accuracies of 51.2% on the competition-level MATH benchmark and 83.9% on the GSM8K benchmark using only SFT data, outperforming an early version of GPT-4 on MATH. The superior performance of Skywork-Math models contributes to our novel two-stage data synthesis and model SFT pipelines, which include three different augmentation methods and a diverse seed problem set, ensuring both the quantity and quality of Skywork-MathQA dataset across varying difficulty levels. Most importantly, we provide several practical takeaways to enhance math reasoning abilities in LLMs for both research and industry applications.
翻訳日:2024-07-12 17:59:20 公開日:2024-07-11
# 頂点分割用強化YOLOv5を用いた松視X線画像を用いたペディクルスクリューのGUI計画

Spine Vision X-Ray Image based GUI Planning of Pedicle Screws Using Enhanced YOLOv5 for Vertebrae Segmentation ( http://arxiv.org/abs/2407.08349v1 )

ライセンス: Link先を確認
Yashwanth Rao, Gaurisankar S, Durga R, Aparna Purayath, Vivek Maik, Manojkumar Lakshmanan, Mohanasankar Sivaprakasm, (参考訳) 本稿では,脊椎椎間板分割による脊椎スクリューの正確な配置のための術前計画と術中指導の改善を目的とした,革新的なGUIを提案する。 この手法はフロントエンドとバックエンドの両方の計算を含む。 前端は、外科医がX線画像上のスクリューの配置を正確に調整できるGUIを備えており、患者の脊椎における外科的スクリュー挿入のシミュレーションを改善する。 一方、バックエンド処理には、脊髄X線画像の取得、ノイズを低減するための前処理技術の実行、脊椎のリアルタイムセグメンテーションを実現するためのニューラルネットワークモデルのトレーニングなど、いくつかのステップが含まれる。 GUIにおける椎骨分割の統合は、正確なスクリュー配置を保証し、神経損傷などの合併症を軽減し、最終的には外科的結果を改善する。 Spine-Visionは、同期AP-LP計画、脊椎セグメンテーションによる正確なスクリュー位置決め、効果的なスクリュー可視化、動的位置調整などの革新的な機能を備えた包括的なソリューションを提供する。 このX線画像ベースのGUIワークフローは、脊椎のスクリュー配置と計画手順の精度と安全性を高める貴重なツールとして登場した。

In this paper, we propose an innovative Graphical User Interface (GUI) aimed at improving preoperative planning and intra-operative guidance for precise spinal screw placement through vertebrae segmentation. The methodology encompasses both front-end and back-end computations. The front end comprises a GUI that allows surgeons to precisely adjust the placement of screws on X-Ray images, thereby improving the simulation of surgical screw insertion in the patient's spine. On the other hand, the back-end processing involves several steps, including acquiring spinal X-ray images, performing pre-processing techniques to reduce noise, and training a neural network model to achieve real-time segmentation of the vertebrae. The integration of vertebral segmentation in the GUI ensures precise screw placement, reducing complications like nerve injury and ultimately improving surgical outcomes. The Spine-Vision provides a comprehensive solution with innovative features like synchronous AP-LP planning, accurate screw positioning via vertebrae segmentation, effective screw visualization, and dynamic position adjustments. This X-ray image-based GUI workflow emerges as a valuable tool, enhancing precision and safety in spinal screw placement and planning procedures.
翻訳日:2024-07-12 17:59:20 公開日:2024-07-11
# AutoBencher: 言語モデルのための健全で、新しい、難しいデータセットを作成する

AutoBencher: Creating Salient, Novel, Difficult Datasets for Language Models ( http://arxiv.org/abs/2407.08351v1 )

ライセンス: Link先を確認
Xiang Lisa Li, Evan Zheran Liu, Percy Liang, Tatsunori Hashimoto, (参考訳) 評価は、能力の評価、科学的進歩の追跡、モデル選択のインフォームに不可欠である。 本稿では、言語モデルのための優れたベンチマークのための3つのデシラタを示す。 (i)サリエンス(例えば、第二次世界大戦に関する知識は、歴史上のランダムな日よりもより健全である) (II)新規性(例えば、ベンチマークは、以前のベンチマークでは示されていないモデルランキングの新しい傾向を明らかにする)、そして (iii)困難(つまり、ベンチマークは既存のモデルでは困難であり、将来の改善のためにヘッドルームを残しなければならない)。 これら3つのデシラタとキャストベンチマーク作成を探索問題として運用し、これら3つのデシラタを全て満たすベンチマークを見つける。 この問題を解決するために,3つのデシダータを満たすデータセットを自動的に検索する言語モデルを用いたAutoBencherを提案する。 AutoBencherは、信頼できるデータセットを構築するために特権情報(関連するドキュメントなど)を使用し、検索目的のために最適化するために再ランク付けされた適応性を使用する。 AutoBencherを使って、数学、多言語、知識集約的な質問応答のためのデータセットを作成しています。 AutoBencherのスケーラビリティにより、詳細なカテゴリとテールナレッジをテストすることができ、既存のベンチマークよりも平均して27%の新規性と22%の難しいデータセットを生成することができる。 構築されたデータセットを詳細に調査した結果、既存のベンチマークで捉えていない言語モデルにおいて、LM知識の特定のギャップを特定できることが判明した。例えば、Gemini ProはPermian ExtinctionやFordismに関する質問に答える上で、はるかに悪く、OpenAGI-7Bは新型コロナウイルスに関するQAで驚くほどよく機能している。

Evaluation is critical for assessing capabilities, tracking scientific progress, and informing model selection. In this paper, we present three desiderata for a good benchmark for language models: (i) salience (e.g., knowledge about World War II is more salient than a random day in history), (ii) novelty (i.e., the benchmark reveals new trends in model rankings not shown by previous benchmarks), and (iii) difficulty (i.e., the benchmark should be difficult for existing models, leaving headroom for future improvement). We operationalize these three desiderata and cast benchmark creation as a search problem, that of finding benchmarks that that satisfy all three desiderata. To tackle this search problem, we present AutoBencher, which uses a language model to automatically search for datasets that meet the three desiderata. AutoBencher uses privileged information (e.g. relevant documents) to construct reliable datasets, and adaptivity with reranking to optimize for the search objective. We use AutoBencher to create datasets for math, multilingual, and knowledge-intensive question answering. The scalability of AutoBencher allows it to test fine-grained categories and tail knowledge, creating datasets that are on average 27% more novel and 22% more difficult than existing benchmarks. A closer investigation of our constructed datasets shows that we can identify specific gaps in LM knowledge in language models that are not captured by existing benchmarks, such as Gemini Pro performing much worse on question answering about the Permian Extinction and Fordism, while OpenAGI-7B performing surprisingly well on QA about COVID-19.
翻訳日:2024-07-12 17:59:20 公開日:2024-07-11
# 複数電位の組み合わせによる動的ペア生産促進

Dynamically assisted pair production enhancement by combined multiple potentials ( http://arxiv.org/abs/2407.08355v1 )

ライセンス: Link先を確認
Lie-Juan Li, Li Wang, Melike Mohamedsedik, Li-Na Hu, Bai-Song Xie, (参考訳) そこで本研究では, 深部低速変動ポテンシャルと浅部低速変動ポテンシャルからなる組合せ多重ポテンシャルを持つ新しいソーター型場モデルを提案する。 ペア生成に対するソーター=シュウィンガー効果は、量子場理論を用いて動的に支援される。 強化されたペア生成は、単一のポテンシャルではなく、複数のポテンシャルに対して約1次の増加で重要であることが判明した。 シュウィンガー機構に支配される場合、明らかな時間効果はポテンシャルの2つの端に集中する電子をもたらす。 しかし、反対に、多光子過程において、対生成は電子を電位の外側に分散させ、複数のピークがゼロから遠く離れ、ステップのような構造へと均等に進化させる。 興味深い発見は、交互ポテンシャルで生成される対の粒子は、振動ポテンシャル井戸や電位バリアと比較して準単エネルギー構造を持ち、高品質な陽電子源を実現するのに役立つことである。

We propose a new Sauter-like field model with combinatorial multiple potentials consisting of a deep slow-varying and some shallow fast-varying potentials. The dynamically assisted Sauter-Schwinger effect on the pair production is found by using the computational quantum field theory. The enhanced pair production is found to be significant at about one order increasing for multiple potentials rather than single potential. In case of dominated by Schwinger mechanism, the obvious time effect leads to electrons concentrating at the two edges of the potential, meanwhile, the momentum locates at the zero nearby. In contrary, however, for the multiphoton processes, the pair generation makes the electrons distributing outside the potential and the momentum appearing multiple peaks far away from zero and evenly evolving toward a step-like structure. An interesting finding is that the particles of pair produced in the alternating potential has a quasi-monoenergetic structure compared to the oscillating potential well or/and potential barrier, which is helpful to achieve the high quality positron source.
翻訳日:2024-07-12 17:59:20 公開日:2024-07-11
# FPGAに関するイベントベースのビジョン - 調査

Event-based vision on FPGAs -- a survey ( http://arxiv.org/abs/2407.08356v1 )

ライセンス: Link先を確認
Tomasz Kryjak, (参考訳) 近年では、各画素ごとに独立して照明の変化を記録する視覚センサなど、イベントカメラへの関心が高まっている。 この種の操作は、低照度と高ダイナミックレンジの両方において非常に悪い照明条件下での取得を可能にし、平均消費電力を減少させる。 さらに,各画素の独立動作によりレイテンシが低くなり,ロボットソリューションに好適である。 現在、FPGA(Field Programmable Gate Arrays)は汎用プロセッサ(GPP/CPU)やGPU(Programmable Graph Processing Unit)とともに、コンピュータタスクの実装と高速化に人気のあるアーキテクチャである。 特に、組み込み視覚領域におけるそれらの有用性は、過去30年間で繰り返し実証され、高速なデータ処理(リアルタイムでも)とエネルギー効率が実現された。 したがって、特にエネルギー効率のよいリアルタイム組み込みシステムにおいて、イベントカメラと再構成可能なデバイスの組み合わせは良いソリューションであるように思われる。 本稿では、FPGAがイベントデータを処理するために様々な文脈で使われている、最も重要な研究の概要について述べる。 フィルタリング、ステレオビジョン、光学フロー、物体の分類、検出と追跡のためのAIベースのアルゴリズム(スパイクニューラルネットワークを含む)の加速、ロボットや検査システムにおける応用などである。 このようなシステムの現状と課題についても論じる。

In recent years there has been a growing interest in event cameras, i.e. vision sensors that record changes in illumination independently for each pixel. This type of operation ensures that acquisition is possible in very adverse lighting conditions, both in low light and high dynamic range, and reduces average power consumption. In addition, the independent operation of each pixel results in low latency, which is desirable for robotic solutions. Nowadays, Field Programmable Gate Arrays (FPGAs), along with general-purpose processors (GPPs/CPUs) and programmable graphics processing units (GPUs), are popular architectures for implementing and accelerating computing tasks. In particular, their usefulness in the embedded vision domain has been repeatedly demonstrated over the past 30 years, where they have enabled fast data processing (even in real-time) and energy efficiency. Hence, the combination of event cameras and reconfigurable devices seems to be a good solution, especially in the context of energy-efficient real-time embedded systems. This paper gives an overview of the most important works, where FPGAs have been used in different contexts to process event data. It covers applications in the following areas: filtering, stereovision, optical flow, acceleration of AI-based algorithms (including spiking neural networks) for object classification, detection and tracking, and applications in robotics and inspection systems. Current trends and challenges for such systems are also discussed.
翻訳日:2024-07-12 17:59:20 公開日:2024-07-11
# 空洞分極論における鏡誘起効果:エッジ状態への影響

Mirror-induced effects in cavity polaritonics: influence on edge states ( http://arxiv.org/abs/2407.08357v1 )

ライセンス: Link先を確認
Thomas F. Allard, Guillaume Weick, (参考訳) 光学キャビティは強力な光-物質結合を誘導し、ポーラリトンの存在を可能にするために広く用いられている。 ポラリトンは観測された物理学の大半の源となっているが、空洞を形成する鏡は強い光と物質が結合する状態とは無関係に、多くの現象の原因となる可能性がある。 ここでは、立方体腔に結合した双極子エミッター鎖のおもちゃモデルを用いる。 我々は,キャビティミラーが課す境界条件のみに起因したいくつかの効果を明らかにし,エミッタとキャビティ壁の距離がダイポール間分離の順序である場合に支配的な効果を示す。 特に、チェーンに横切る方向のミラーが効果的な欠陥として作用し、タムエッジ状態が出現する可能性があることを示す。 トポロジカル連鎖を考えると、このような横ミラーは強い光-物質結合の影響からエッジ状態を保護できることを示した。 最後に、連鎖に平行なミラーは、それらが関与する画像電荷によって、非常に非共鳴光子の場合であっても位相相転移を誘導する。

Optical cavities are widely used to induce strong light-matter coupling and thereby enable the presence of polaritons. While polaritons are at the source of most of the observed physics, the mirrors forming the cavity may also themselves be responsible for a number of phenomena, independently of the strong light-matter coupling regime. Here, we use a toy model of a chain of dipolar emitters coupled to a cuboidal cavity. We unveil several effects originating solely from the boundary conditions imposed by the cavity mirrors, that are dominant when the distances of the emitters to the cavity walls are of the order of the interdipole separation. In particular, we show that mirrors in the direction transverse to the chain may act as effective defects, leading to the emergence of Tamm edge states. Considering a topological chain, we demonstrate that such transverse mirrors may also protect edge states against the effects of the strong light-matter coupling. Finally, we find that mirrors parallel to the chain, by the image charges they involve, induce topological phase transitions even in the case of highly off-resonant photons.
翻訳日:2024-07-12 17:59:20 公開日:2024-07-11
# シュワルツシルトブラックホールの量子化領域:非エルミート的視点

Quantized area of the Schwarzschild black hole: A non-hermitian perspective ( http://arxiv.org/abs/2407.08358v1 )

ライセンス: Link先を確認
Bijan Bagchi, Aritra Ghosh, Sauvik Sen, (参考訳) 本研究の目的は、事象水平線の領域のベーケンシュタインの量子化された形式と、パリティ時対称であることが知られている非エルミートスワンソン発振器のハミルトニアンを結びつけることである。 我々は、非エルミート量子系をスケールした高調波発振器にマッピングする類似性変換を用いてこれを実現する。 この目的のために、シュワルツシルト質量を直接的に表現し、共役運動量(漸近時間座標を表す)の周期的特徴を暗示する、制約のない還元ハミルトニアンを考える。 これにより、調和振動子レベルの観点から事象-水平領域の量子化が導かれる。 次に、スワンソン振動子モデルの枠組みにおいて、対応するホーキング温度とブラックホールエントロピーに関する新しい表現を導出する。

In this work our aim is to link Bekenstein's quantized form of the area of the event horizon to the Hamiltonian of the non-Hermitian Swanson oscillator which is known to be parity-time-symmetric. We achieve this by employing a similarity transformation that maps the non-Hermitian quantum system to a scaled harmonics oscillator. To this end, we consider the unconstrained reduced Hamiltonian which is directly expressed in terms of the Schwarzschild mass and implies a periodic character for the conjugate momentum (which represents the asymptotic time coordinate), the period being the inverse Hawking temperature. This leads to the quantization of the event-horizon area in terms of the harmonic oscillator levels. Next, in the framework of the Swanson oscillator model, we proceed to derive novel expressions for the corresponding Hawking temperature and black hole entropy.
翻訳日:2024-07-12 17:59:20 公開日:2024-07-11
# シナリオに基づくドローンミッションのフィールドテスト

Scenario-Based Field Testing of Drone Missions ( http://arxiv.org/abs/2407.08359v1 )

ライセンス: Link先を確認
Michael Vierhauser, Kristof Meixner, Stefan Biffl, (参考訳) 空域領域におけるCPS(Cyber-Physical Systems)のテストと検証(ドローン救助ミッションのフィールドテストなど)は、気象条件などの揮発性ミッション環境による課題を提起する。 テストプロセスと方法論は十分に確立されているが、フィールドテストのための構造化されたガイダンスと実行サポートはまだ弱い。 本稿では,ドローン飛行のフィールドテストの要件を特定し,適応型フィールドテストガイダンスのためのフィールドテストシナリオ管理(FiTS)アプローチを提案する。 FiTSは、フィールドテストとCPSの品質保証と反復的な改善を促進するための効率的なデータ収集の基盤として、フィールドテスタに十分なガイダンスを提供することを目的としている。 FiTSは、シナリオベースの要件エンジニアリングと振る舞い駆動開発の概念を活用して、構成された再利用可能なテストシナリオを定義し、専用のタスクとロール固有のガイダンスの責任を負います。 我々はFiTSの評価を行う。 二 検索救助用ドローンアプリケーションの実用性及び実用性を示す三つの用途に応用すること。 (II) 経験豊富なドローン開発者へのインタビューにより、その有用性を評価し、さらなる要件を収集する。 研究結果から、FiTSはドローンのフィールドテストとデータ分析を容易にするのに有用で有用であることが示唆された。

Testing and validating Cyber-Physical Systems (CPSs) in the aerospace domain, such as field testing of drone rescue missions, poses challenges due to volatile mission environments, such as weather conditions. While testing processes and methodologies are well established, structured guidance and execution support for field tests are still weak. This paper identifies requirements for field testing of drone missions, and introduces the Field Testing Scenario Management (FiTS) approach for adaptive field testing guidance. FiTS aims to provide sufficient guidance for field testers as a foundation for efficient data collection to facilitate quality assurance and iterative improvement of field tests and CPSs. FiTS shall leverage concepts from scenario-based requirements engineering and Behavior-Driven Development to define structured and reusable test scenarios, with dedicated tasks and responsibilities for role-specific guidance. We evaluate FiTS by (i) applying it to three use cases for a search-and-rescue drone application to demonstrate feasibility and (ii) interviews with experienced drone developers to assess its usefulness and collect further requirements. The study results indicate FiTS to be feasible and useful to facilitate drone field testing and data analysis
翻訳日:2024-07-12 17:59:20 公開日:2024-07-11
# STAL: 痛み関連生体信号データの分類のためのスパイク閾値適応学習エンコーダ

STAL: Spike Threshold Adaptive Learning Encoder for Classification of Pain-Related Biosignal Data ( http://arxiv.org/abs/2407.08362v1 )

ライセンス: Link先を確認
Freek Hens, Mohammad Mahdi Dehshibi, Leila Bagheriye, Mahyar Shahsavari, Ana Tajadura-Jiménez, (参考訳) 本稿では,EmoPainデータセットを用いた慢性腰痛 (CLBP) 分類のためのスパイキングニューラルネットワーク (SNN) の最初の応用について述べる。 私たちの仕事は2つの主な貢献があります。 本稿では,連続生体信号をスパイク列車に変換する訓練可能なエンコーダであるSpike Threshold Adaptive Learning (STAL)を紹介する。 さらに,SEMG と IMU データのマルチストリーム処理のためのスパイキングリカレントニューラルネットワーク (SRNN) 分類器のアンサンブルを提案する。 小さいサンプルサイズとクラス不均衡の課題に対処するため、バッチ生成時にサンプル置換を重み付けしたマイノリティオーバーサンプリングを実装した。 提案手法は,80.43%の精度,67.90%のAUC,52.60%のF1スコア,0.437のMaths correlation Coefficient(MCC)を達成し,従来のレートベースおよび遅延ベース符号化法を上回る性能を示した。 STALエンコーダは、時間的ダイナミクスの保存と信号特性への適応において優れた性能を示す。 重要なこととして,我々の手法(STAL-SRNN)はMCCで最高の深層学習法より優れており,バランスの取れたクラス予測の精度が向上している。 本研究は,生体信号解析のためのニューロモルフィックコンピューティングの開発に寄与する。 慢性的な痛み管理において、エネルギー効率が高くウェアラブルなソリューションを約束している。

This paper presents the first application of spiking neural networks (SNNs) for the classification of chronic lower back pain (CLBP) using the EmoPain dataset. Our work has two main contributions. We introduce Spike Threshold Adaptive Learning (STAL), a trainable encoder that effectively converts continuous biosignals into spike trains. Additionally, we propose an ensemble of Spiking Recurrent Neural Network (SRNN) classifiers for the multi-stream processing of sEMG and IMU data. To tackle the challenges of small sample size and class imbalance, we implement minority over-sampling with weighted sample replacement during batch creation. Our method achieves outstanding performance with an accuracy of 80.43%, AUC of 67.90%, F1 score of 52.60%, and Matthews Correlation Coefficient (MCC) of 0.437, surpassing traditional rate-based and latency-based encoding methods. The STAL encoder shows superior performance in preserving temporal dynamics and adapting to signal characteristics. Importantly, our approach (STAL-SRNN) outperforms the best deep learning method in terms of MCC, indicating better balanced class prediction. This research contributes to the development of neuromorphic computing for biosignal analysis. It holds promise for energy-efficient, wearable solutions in chronic pain management.
翻訳日:2024-07-12 17:59:20 公開日:2024-07-11
# スカラー関数トポロジーの多様性:3次元オブジェクトのトポロジーの比較

Scalar Function Topology Divergence: Comparing Topology of 3D Objects ( http://arxiv.org/abs/2407.08364v1 )

ライセンス: Link先を確認
Ilya Trofimov, Daria Voronkova, Eduard Tulchinskii, Evgeny Burnaev, Serguei Barannikov, (参考訳) コンピュータビジョンのための新しいトポロジツールであるスカラー関数トポロジディバージェンス(SFTD)を提案し、共通領域を持つ2つの関数の下位レベル集合間のマルチスケールトポロジの相違を測定する。 函数は任意の次元の無向グラフやユークリッド空間上で定義することができる。 トポロジを比較する既存の手法のほとんどは、永続バーコード間のワッサーシュタイン距離に基づいており、トポロジ的特徴の局所性を考慮していない。 一方、SFTDの最小化により、スカラー関数の対応する位相的特徴が同じ位置にあることが保証される。 提案ツールは,関数が位相的相似性を持つ領域を視覚化する有用なツールである。 提案手法の3次元コンピュータビジョンへの応用について述べる。 特に実験では、SFTDは2次元蛍光顕微鏡画像から細胞3次元形状の再構成を改善し、3次元分割における位相誤差の同定に役立っている。

We propose a new topological tool for computer vision - Scalar Function Topology Divergence (SFTD), which measures the dissimilarity of multi-scale topology between sublevel sets of two functions having a common domain. Functions can be defined on an undirected graph or Euclidean space of any dimensionality. Most of the existing methods for comparing topology are based on Wasserstein distance between persistence barcodes and they don't take into account the localization of topological features. On the other hand, the minimization of SFTD ensures that the corresponding topological features of scalar functions are located in the same places. The proposed tool provides useful visualizations depicting areas where functions have topological dissimilarities. We provide applications of the proposed method to 3D computer vision. In particular, experiments demonstrate that SFTD improves the reconstruction of cellular 3D shapes from 2D fluorescence microscopy images, and helps to identify topological errors in 3D segmentation.
翻訳日:2024-07-12 17:59:20 公開日:2024-07-11
# 6自由度グラフ検出のための経済フレームワーク

An Economic Framework for 6-DoF Grasp Detection ( http://arxiv.org/abs/2407.08366v1 )

ライセンス: Link先を確認
Xiao-Ming Wu, Jia-Feng Cai, Jian-Jian Jiang, Dian Zheng, Yi-Lin Wei, Wei-Shi Zheng, (参考訳) クラッタにおけるロボットの握りは、ロボット操作の基本的なタスクである。 本研究では,訓練における資源コストの低減と効果的な把握性能の維持を目的とした,6-DoFグリップ検出のための経済的な枠組みを提案する。 まず,従来のSOTA手法のボトルネックが,トレーニング全体の過負荷を著しく抑制する一方で,トレーニングの収束を困難にしていることがわかった。 この問題を解決するために,我々はまず,効率的かつ効果的な把握のための経済監督パラダイムを提案する。 このパラダイムには、よく設計された監督選択戦略、基本的に曖昧さのないキーラベルの選択、選択後のトレーニングを可能にする経済パイプラインが含まれる。 さらに、経済監督の恩恵により、特定の把握に焦点を合わせることができ、対話型把握ヘッドと複合スコア推定を備えた焦点表現モジュールを考案し、より正確に特定の把握を生成する。 これらをすべて組み合わせて、EconomicGraspフレームワークが提案されている。 以上の結果から,EconomicGraspはSOTAグラウンド法を平均3AP以上,資源コストが極端に低く,トレーニング時間1/4,メモリコスト1/8,ストレージコスト1/30であることがわかった。 私たちのコードはhttps://github.com/iSEE-Laboratory/EconomicGrasp.comで公開されています。

Robotic grasping in clutters is a fundamental task in robotic manipulation. In this work, we propose an economic framework for 6-DoF grasp detection, aiming to economize the resource cost in training and meanwhile maintain effective grasp performance. To begin with, we discover that the dense supervision is the bottleneck of current SOTA methods that severely encumbers the entire training overload, meanwhile making the training difficult to converge. To solve the above problem, we first propose an economic supervision paradigm for efficient and effective grasping. This paradigm includes a well-designed supervision selection strategy, selecting key labels basically without ambiguity, and an economic pipeline to enable the training after selection. Furthermore, benefit from the economic supervision, we can focus on a specific grasp, and thus we devise a focal representation module, which comprises an interactive grasp head and a composite score estimation to generate the specific grasp more accurately. Combining all together, the EconomicGrasp framework is proposed. Our extensive experiments show that EconomicGrasp surpasses the SOTA grasp method by about 3AP on average, and with extremely low resource cost, for about 1/4 training time cost, 1/8 memory cost and 1/30 storage cost. Our code is available at https://github.com/iSEE-Laboratory/EconomicGrasp.
翻訳日:2024-07-12 17:59:20 公開日:2024-07-11
# 直交学習と相互規則化による視覚言語モデルのロバスト性向上

Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Cross-Regularization ( http://arxiv.org/abs/2407.08374v1 )

ライセンス: Link先を確認
Jinlong Li, Zequn Jie, Elisa Ricci, Lin Ma, Nicu Sebe, (参考訳) 特定の下流タスクのためのCLIPのような視覚言語モデル(VLM)の効率的な微調整が注目されている。 これまでの作業は主に、CLIPをさまざまなダウンストリームタスクに適応させるための学習の促進に重点を置いていたが、小さなデータセットに微調整された場合のタスク過度な調整に悩まされていた。 本稿では,強靭性や一般化を向上する事前学習重みを効率的に更新する直交微調整手法を提案するとともに,VLMのゼロショット一般化(textbf{\textit{OrthCR}})の観点から安定性を維持するために,相互正規化戦略をさらに活用する。 具体的には、トレーニング可能な直交行列をトランスフォーマーアーキテクチャにシームレスに注入し、ケイリーパラメータ化を用いて直交制約を課し、ノルム保存特性の恩恵を受け、安定かつ高速な収束をもたらす。 トレーニング中の直交制約からの逸脱を軽減するため、バイパス方式で事前訓練した初期重みを相互正規化戦略がさらに採用される。 さらに、下流タスクのサンプルの多様性を強化するために、まずカットアウトデータ拡張を探求し、効率的な微調整を向上し、我々のアプローチが特定の下流のパフォーマンスをどのように改善するかを理解し、直交学習の観点から一般化性を維持する。 既存の即時学習技術以外にも,本手法は,タスク固有の知識を表現するためにトレーニング済みの重み空間を明示的にステアリングし,さらに,textit{base-to-base/base-to-new}, \textit{cross-dataset transfer}, \textit{domain generalization} 評価に基づいて,競争一般化性を示す。

Efficient finetuning of vision-language models (VLMs) like CLIP for specific downstream tasks is gaining significant attention. Previous works primarily focus on prompt learning to adapt the CLIP into a variety of downstream tasks, however, suffering from task overfitting when finetuned on a small data set. In this paper, we introduce an orthogonal finetuning method for efficiently updating pretrained weights which enhances robustness and generalization, while a cross-regularization strategy is further exploited to maintain the stability in terms of zero-shot generalization of VLMs, dubbed \textbf{\textit{OrthCR}}. Specifically, trainable orthogonal matrices are injected seamlessly into the transformer architecture and enforced with orthogonality constraint using Cayley parameterization, benefiting from the norm-preserving property and thus leading to stable and faster convergence. To alleviate deviation from orthogonal constraint during training, a cross-regularization strategy is further employed with initial pretrained weights within a bypass manner. In addition, to enrich the sample diversity for downstream tasks, we first explore Cutout data augmentation to boost the efficient finetuning and comprehend how our approach improves the specific downstream performance and maintains the generalizability in the perspective of Orthogonality Learning. Beyond existing prompt learning techniques, we conduct extensive experiments to demonstrate that our method explicitly steers pretrained weight space to represent the task-specific knowledge and presents competitive generalizability under \textit{base-to-base/base-to-new}, \textit{cross-dataset transfer} and \textit{domain generalization} evaluations.
翻訳日:2024-07-12 17:49:33 公開日:2024-07-11
# 長距離乱流緩和:大規模データセットと粗粒度フレームワーク

Long-range Turbulence Mitigation: A Large-scale Dataset and A Coarse-to-fine Framework ( http://arxiv.org/abs/2407.08377v1 )

ライセンス: Link先を確認
Shengqi Xu, Run Sun, Yi Chang, Shuning Cao, Xueyao Xiao, Luxin Yan, (参考訳) 長距離イメージングは必然的に、光のランダムな屈折による厳密な幾何学的歪みを伴う大気の乱れに悩まされる。 距離が遠くなるほど、混乱は深刻になる。 従来の研究は短距離乱流への対処に大きな進歩を遂げているが、大きな歪みを伴う長距離乱流への注意は少ない。 このジレンマに対処し、フィールドを前進させるため、1Kmから13Kmの範囲に1500の乱流列を含む、大規模でリアルタイムな長距離大気乱流データセット(RLR-AT)を構築した。 RLR-ATの利点は、より長距離で高密度な乱流、より多彩で大規模なシーンである。 さらに、既存のほとんどの研究は1段階の緩和によって歪みに対処する登録ベースまたは分解ベースの手法を採用している。 しかし、大きなピクセル変位のため、長距離の乱流を効果的に扱えない。 本研究では, 動的乱流と静的背景前兆(CDSP)とを協調し, 強歪みに対処する粗大なフレームワークを提案する。 一方, 乱流前における画素運動統計値を発見し, 大規模歪み登録のための周波数対応参照フレームを提案し, 改良の負担を大幅に軽減した。 一方,背景の静的な優先順位を生かしたサブスペースベースの低ランクテンソル精細化モデルを提案し,詳細な保存を図りつつ,登録によって必然的に残されるミスアライメントを除去する。 動的で静的な先行は互いに補完し、激しい歪みを伴う長距離の乱流を段階的に緩和するのに役立つ。 大規模な実験により,提案手法は異なるデータセット上でSOTA法より優れていることが示された。

Long-range imaging inevitably suffers from atmospheric turbulence with severe geometric distortions due to random refraction of light. The further the distance, the more severe the disturbance. Despite existing research has achieved great progress in tackling short-range turbulence, there is less attention paid to long-range turbulence with significant distortions. To address this dilemma and advance the field, we construct a large-scale real long-range atmospheric turbulence dataset (RLR-AT), including 1500 turbulence sequences spanning distances from 1 Km to 13 Km. The advantages of RLR-AT compared to existing ones: turbulence with longer-distances and higher-diversity, scenes with greater-variety and larger-scale. Moreover, most existing work adopts either registration-based or decomposition-based methods to address distortions through one-step mitigation. However, they fail to effectively handle long-range turbulence due to its significant pixel displacements. In this work, we propose a coarse-to-fine framework to handle severe distortions, which cooperates dynamic turbulence and static background priors (CDSP). On the one hand, we discover the pixel motion statistical prior of turbulence, and propose a frequency-aware reference frame for better large-scale distortion registration, greatly reducing the burden of refinement. On the other hand, we take advantage of the static prior of background, and propose a subspace-based low-rank tensor refinement model to eliminate the misalignments inevitably left by registration while well preserving details. The dynamic and static priors complement to each other, facilitating us to progressively mitigate long-range turbulence with severe distortions. Extensive experiments demonstrate that the proposed method outperforms SOTA methods on different datasets.
翻訳日:2024-07-12 17:49:33 公開日:2024-07-11
# 視覚に基づく車両速度検出システムにおける実地データの必要性を軽減するデジタル双生児

Digital twins to alleviate the need for real field data in vision-based vehicle speed detection systems ( http://arxiv.org/abs/2407.08380v1 )

ライセンス: Link先を確認
Antonio Hernández Martínez, Iván García Daza, Carlos Fernández López, David Fernández Llorca, (参考訳) 正確な視覚に基づく速度推定は、レーダーやLiDARに基づく従来の手法よりもはるかに費用対効果が高い。 しかし、離散センサの視点投影の限界や、キャリブレーション、照明、気象条件に対する高い感度のため、これは困難である。 興味深いことに、ディープラーニングアプローチ(コンピュータビジョンの分野を支配している)は、利用可能なデータが不足しているため、この文脈では非常に限られている。 実際、各車両に関連付けられた正確な速度値を持つ実際の道路交通の映像シーケンスを得るのは非常に複雑でコストがかかり、利用可能なデータセットの数は極めて限られている。 近年,合成データの利用に焦点が当てられている。 しかし、合成データに基づいて訓練されたモデルが現実の状況にどのように効果的に適用できるかは、まだ不明である。 本研究では,CARLAシミュレータを用いたデジタルツインを用いて,特定の実世界のカメラの大規模なデータセットを生成することを提案する。 合成データセットには、車両の種類、色、速度、照明、気象条件の大きなバリエーションが含まれている。 3D CNNモデルはデジタルツインで訓練され、実際のシーケンスでテストされる。 マルチカメラシーケンスを生成する従来の手法とは異なり、実数と仮想条件のギャップは低速推定誤差を得る上で重要な要素であることがわかった。 予備的なアプローチであっても、得られた平均絶対誤差は3km/h以下である。

Accurate vision-based speed estimation is much more cost-effective than traditional methods based on radar or LiDAR. However, it is also challenging due to the limitations of perspective projection on a discrete sensor, as well as the high sensitivity to calibration, lighting and weather conditions. Interestingly, deep learning approaches (which dominate the field of computer vision) are very limited in this context due to the lack of available data. Indeed, obtaining video sequences of real road traffic with accurate speed values associated with each vehicle is very complex and costly, and the number of available datasets is very limited. Recently, some approaches are focusing on the use of synthetic data. However, it is still unclear how models trained on synthetic data can be effectively applied to real world conditions. In this work, we propose the use of digital-twins using CARLA simulator to generate a large dataset representative of a specific real-world camera. The synthetic dataset contains a large variability of vehicle types, colours, speeds, lighting and weather conditions. A 3D CNN model is trained on the digital twin and tested on the real sequences. Unlike previous approaches that generate multi-camera sequences, we found that the gap between the the real and the virtual conditions is a key factor in obtaining low speed estimation errors. Even with a preliminary approach, the mean absolute error obtained remains below 3km/h.
翻訳日:2024-07-12 17:49:33 公開日:2024-07-11
# LiDARを用いた自動運転のための道路側インフラを用いた正確な協調的位置決め

Accurate Cooperative Localization Utilizing LiDAR-equipped Roadside Infrastructure for Autonomous Driving ( http://arxiv.org/abs/2407.08384v1 )

ライセンス: Link先を確認
Yuze Jiang, Ehsan Javanmardi, Manabu Tsukada, Hiroshi Esaki, (参考訳) 近年のLiDAR技術の進歩はコストを大幅に削減し、精度と解像度の両方を改善し、自動運転車のローカライゼーションにおける重要な要素としての役割を固めている。 高度な3D登録アルゴリズムを使用して、LiDARはセンチメートルレベルの精度で車両のローカライゼーションを容易にする。 しかし、これらの高精度技術は、識別可能なマップ機能を持たない環境において、しばしば信頼性上の課題に直面している。 この制限に対処するため,道路側ユニット (RSU) と車両間通信 (V2I) を用いて車両の自己局所化を支援する手法を提案する。 RSUを定常基準点とし、リアルタイムLiDARデータを処理することにより、協調的な局所化フレームワークによる局所化精度を向上させる。 RSUを重要領域に配置することにより,従来の車両の自己位置決め技術が不十分な場合に,車両位置決めの信頼性と精度を向上させることができる。 エンド・ツー・エンドの自動運転シミュレータAWSIMによる評価結果から、従来のローカライゼーション手法と比較して、脆弱な環境下で最大80%のローカライゼーション精度を向上させることができることが示された。 さらに,異種ネットワーク環境におけるネットワーク遅延やパケットロスに対する頑健な耐性を示す。

Recent advancements in LiDAR technology have significantly lowered costs and improved both its precision and resolution, thereby solidifying its role as a critical component in autonomous vehicle localization. Using sophisticated 3D registration algorithms, LiDAR now facilitates vehicle localization with centimeter-level accuracy. However, these high-precision techniques often face reliability challenges in environments devoid of identifiable map features. To address this limitation, we propose a novel approach that utilizes road side units (RSU) with vehicle-to-infrastructure (V2I) communications to assist vehicle self-localization. By using RSUs as stationary reference points and processing real-time LiDAR data, our method enhances localization accuracy through a cooperative localization framework. By placing RSUs in critical areas, our proposed method can improve the reliability and precision of vehicle localization when the traditional vehicle self-localization technique falls short. Evaluation results in an end-to-end autonomous driving simulator AWSIM show that the proposed method can improve localization accuracy by up to 80% under vulnerable environments compared to traditional localization methods. Additionally, our method also demonstrates robust resistance to network delays and packet loss in heterogeneous network environments.
翻訳日:2024-07-12 17:49:33 公開日:2024-07-11
# 大規模言語モデルに対する信頼感の寄与について

On the attribution of confidence to large language models ( http://arxiv.org/abs/2407.08388v1 )

ライセンス: Link先を確認
Geoff Keeling, Winnie Street, (参考訳) クレデンスは命題の信頼度に対応する精神状態である。 大規模言語モデル (LLMs) へのクレデンスの寄与は, LLM評価に関する実証文献においてよく見られる。 しかし, LLMクレデンス属性の理論的基礎は明らかでない。 我々は3つの主張を擁護する。 まず、私たちのセマンティックな主張は、LSMクレデンス属性は(少なくとも一般的には)文字通りに解釈され、LSMクレデンスに関する事実を説明するために科学者の一部に真実に適応した信念を表すものである、ということです。 第二に、我々のメタ物理的な主張は、LCMクレーデンスの存在は少なくとも確実であるが、現在の証拠は不確定である。 第3に,LSM評価に関する実証文献におけるLCMクレデンス属性は,非自明な感覚的関心事である。 LLMにクレーデンスがあるとしても、LCMクレーデンスを評価する実験技術は真理追跡ではないため、LCMクレーデンス属性が一般的に偽である可能性は明らかである。

Credences are mental states corresponding to degrees of confidence in propositions. Attribution of credences to Large Language Models (LLMs) is commonplace in the empirical literature on LLM evaluation. Yet the theoretical basis for LLM credence attribution is unclear. We defend three claims. First, our semantic claim is that LLM credence attributions are (at least in general) correctly interpreted literally, as expressing truth-apt beliefs on the part of scientists that purport to describe facts about LLM credences. Second, our metaphysical claim is that the existence of LLM credences is at least plausible, although current evidence is inconclusive. Third, our epistemic claim is that LLM credence attributions made in the empirical literature on LLM evaluation are subject to non-trivial sceptical concerns. It is a distinct possibility that even if LLMs have credences, LLM credence attributions are generally false because the experimental techniques used to assess LLM credences are not truth-tracking.
翻訳日:2024-07-12 17:49:33 公開日:2024-07-11
# Diff-Tracker: テキストと画像の拡散モデルは教師なしトラッカーである

Diff-Tracker: Text-to-Image Diffusion Models are Unsupervised Trackers ( http://arxiv.org/abs/2407.08394v1 )

ライセンス: Link先を確認
Zhengbo Zhang, Li Xu, Duo Peng, Hossein Rahmani, Jun Liu, (参考訳) Diff-Trackerは、事前訓練されたテキスト-画像拡散モデルを活用する、教師なし視覚追跡タスクに挑戦する新しい手法である。 画像意味論や構造情報の理解など,事前学習した拡散モデルにカプセル化された豊富な知識を活用して,教師なしの視覚的追跡に対処する。 この目的のために,拡散モデルが目標を表すプロンプトを学習することで,目標を認識できるように初期プロンプト学習器を設計する。 さらに,ターゲットの動きに対するプロンプトの動的適応を容易にするために,オンラインプロンプト更新器を提案する。 5つのベンチマークデータセットの大規模な実験により,提案手法の有効性が実証された。

We introduce Diff-Tracker, a novel approach for the challenging unsupervised visual tracking task leveraging the pre-trained text-to-image diffusion model. Our main idea is to leverage the rich knowledge encapsulated within the pre-trained diffusion model, such as the understanding of image semantics and structural information, to address unsupervised visual tracking. To this end, we design an initial prompt learner to enable the diffusion model to recognize the tracking target by learning a prompt representing the target. Furthermore, to facilitate dynamic adaptation of the prompt to the target's movements, we propose an online prompt updater. Extensive experiments on five benchmark datasets demonstrate the effectiveness of our proposed method, which also achieves state-of-the-art performance.
翻訳日:2024-07-12 17:49:33 公開日:2024-07-11
# ディープニューラルネットワークを用いたカヌースプリントフォースセンサ信号の非解析的定義のエキスパートイベントラベルの検出

Using deep neural networks to detect non-analytically defined expert event labels in canoe sprint force sensor signals ( http://arxiv.org/abs/2407.08395v1 )

ライセンス: Link先を確認
Sarah Rockstrok, Patrick Frenzel, Daniel Matthes, Kay Schubert, David Wollburg, Mirco Fuchs, (参考訳) カヌースプリントにおけるアスリートのパフォーマンスを評価することは、トレーニングセッション中に様々な運動パラメータを測定することで、しばしば確立される。 これらのパラメータの多くは、単一または複数のパドルストロークサイクルと関連している。 力覚信号におけるこれらのサイクルのオン・アンド・オフセットを決定することは、通常簡単ではなく、人間の相互作用を必要とする。 本稿では、これらの事象を自動的に予測する能力の観点から、畳み込みニューラルネットワーク(CNN)と繰り返しニューラルネットワーク(RNN)について検討する。 さらに,本研究では,時間ウィンドウ上でのモデル性能を適切に評価するために,イベント検出のためのSoftEDメトリックの拡張を提案する。 以上の結果から,双方向ゲート再帰単位(BGRU)に基づくRNNがパドルストローク検出に最も適したモデルであることが判明した。

Assessing an athlete's performance in canoe sprint is often established by measuring a variety of kinematic parameters during training sessions. Many of these parameters are related to single or multiple paddle stroke cycles. Determining on- and offset of these cycles in force sensor signals is usually not straightforward and requires human interaction. This paper explores convolutional neural networks (CNNs) and recurrent neural networks (RNNs) in terms of their ability to automatically predict these events. In addition, our work proposes an extension to the recently published SoftED metric for event detection in order to properly assess the model performance on time windows. In our results, an RNN based on bidirectional gated recurrent units (BGRUs) turned out to be the most suitable model for paddle stroke detection.
翻訳日:2024-07-12 17:49:33 公開日:2024-07-11
# 皮膚定常状態の非局在化

Delocalization of skin steady states ( http://arxiv.org/abs/2407.08398v1 )

ライセンス: Link先を確認
Xu Feng, Shu Chen, (参考訳) 境界に粒子が蓄積する傾向を特徴とする皮膚効果は、非エルミート系で広く研究されている。 本研究では2つの鎖からなる直感的なリンドブラディアンを提案する。 鎖間結合が増加するにつれて、皮膚定常状態は徐々に非局在化する。 シングルボディのシナリオでは、Liouvillian gap $\Delta$ を $\Delta \propto N^0$ から $\Delta \propto N^{-2}$ に拡張する。 特に、正確な対角化の結果は、非エルミート有効ハミルトニアン系のシステムサイズ感度から受け継いだ単一粒子のリウヴィリアスペクトルのシステムサイズ感度を示す。 任意に小さなカップリングであっても、リウビリアのスペクトルの劇的な変化と熱力学的限界の定常状態、すなわち臨界リウビリアの皮膚効果が生じると予測する。 さらに、多体シナリオでは、リンドブラッドマスター方程式を解くために確率的シュリンガー方程式を用いることで、定常絡みのスケーリング挙動が領域法則から対数法則に変化することを明らかにした。 この研究は、単一体と多体の両方の皮膚定常状態の非局在化を実証し、量子ゼノ効果を超える絡み合い遷移を誘導する新しいメカニズムを導入する。

The skin effect, characterized by the tendency of particles to accumulate at the boundaries, has been extensively studied in non-Hermitian systems. In this work, we propose an intuitive Lindbladian composed of two chains with reversed skin localization. The skin steady state is gradually delocalized as the interchain coupling increases. In the single-body scenario, it corresponds to a shift in the scaling of the Liouvillian gap $\Delta$ from $\Delta \propto N^0$ to $\Delta \propto N^{-2}$. Notably, exact diagonalization results reveal a system-size sensitivity of the single-particle Liouvillian spectrum, inherited from the non-Hermitian effective Hamiltonian's system-size sensitivity. We predict that even an arbitrarily small coupling will induce dramatic changes in the Liouvillian spectrum and steady state in the thermodynamic limit, a phenomenon we term the critical Liouvillian skin effect. Additionally, in the many-body scenario, by employing the stochastic Schr\"odinger equation to unravel the Lindblad master equation, it is revealed that the scaling behavior of steady-state entanglement changes from the area law to the logarithmic law. This work demonstrates the delocalization of both single-body and many-body skin steady states, introducing a novel mechanism for inducing entanglement transitions beyond the quantum Zeno effect.
翻訳日:2024-07-12 17:49:33 公開日:2024-07-11
# 算数推論のための自己学習言語モデル

Self-training Language Models for Arithmetic Reasoning ( http://arxiv.org/abs/2407.08400v1 )

ライセンス: Link先を確認
Marek Kadlčík, Michal Štefánik, (参考訳) 言語モデルは複雑な多段階推論を含むタスクにおいて印象的な結果をもたらすが、これらの機能をさらに拡張するには、より注釈付きデータの高価な収集が必要である。 本研究では,算術的推論(自己学習)における予測の有効性に対する自動フィードバックを用いることで,新しいデータを持たない言語モデルの能力向上の可能性を検討する。 モデルは単一ラウンド(オフライン)とオンラインの自己学習の両方で大幅に改善できることがわかった。 オフライン環境では、教師付き手法は好みの最適化に匹敵する利得を提供することができるが、オンラインの自己学習では、教師付きトレーニングよりも優れた安定性と、目に見えないタイプの問題に対する堅牢性によって、優先最適化が大幅に向上することを示している。

Language models achieve impressive results in tasks involving complex multistep reasoning, but scaling these capabilities further traditionally requires expensive collection of more annotated data. In this work, we explore the potential of improving the capabilities of language models without new data, merely using automated feedback to the validity of their predictions in arithmetic reasoning (self-training). We find that models can substantially improve in both single-round (offline) and online self-training. In the offline setting, supervised methods are able to deliver gains comparable to preference optimization, but in online self-training, preference optimization shows to largely outperform supervised training thanks to superior stability and robustness on unseen types of problems.
翻訳日:2024-07-12 17:49:33 公開日:2024-07-11
# 顔からの合成MRI声道ビュー生成の倫理

Ethics of Generating Synthetic MRI Vocal Tract Views from the Face ( http://arxiv.org/abs/2407.08403v1 )

ライセンス: Link先を確認
Muhammad Suhaib Shahid, Gleb E. Yakubov, Andrew P. French, (参考訳) 口腔の完全なダイナミックスを理解することができる口腔モデルの構築は、音声補正、高齢化のための食品の設計、歯科医療などの研究領域において不可欠である。 磁気共鳴イメージング(MRI)技術は、そのような詳細な表現を作成するのに不可欠な口腔データを捉えることができ、調音力学を描写するための強力なツールを提供する。 しかし、そのリアルタイムアプリケーションは、費用と専門知識の要求によって妨げられている。 生成的AIアプローチの進化は、擬似MRIビューを生成するためのマルチモーダルアプローチを活用することで、この障壁に対処する方法として自らを提示する。 それにもかかわらず、これは直ちに、顔の観察からMRIを生成する能力を備えたテクノロジーの利用に関する倫理的な懸念を引き起こします。 本稿では,外部-内部相関モデル(E2ICM)の倫理的意義について考察する。 E2ICMは、顔の動きを利用して内部構成を推測し、MRIの費用対効果を支える技術を提供する。 本稿では、Pix2PixGANを用いて、外部の調音データから擬似MRIビューを生成し、本手法の有効性を実証する。 本研究の成果として, プライバシー, 同意, 潜在的な誤用に関する倫理的考察を考察する。

Forming oral models capable of understanding the complete dynamics of the oral cavity is vital across research areas such as speech correction, designing foods for the aging population, and dentistry. Magnetic resonance imaging (MRI) technologies, capable of capturing oral data essential for creating such detailed representations, offer a powerful tool for illustrating articulatory dynamics. However, its real-time application is hindered by expense and expertise requirements. Ever advancing generative AI approaches present themselves as a way to address this barrier by leveraging multi-modal approaches for generating pseudo-MRI views. Nonetheless, this immediately sparks ethical concerns regarding the utilisation of a technology with the capability to produce MRIs from facial observations. This paper explores the ethical implications of external-to-internal correlation modeling (E2ICM). E2ICM utilises facial movements to infer internal configurations and provides a cost-effective supporting technology for MRI. In this preliminary work, we employ Pix2PixGAN to generate pseudo-MRI views from external articulatory data, demonstrating the feasibility of this approach. Ethical considerations concerning privacy, consent, and potential misuse, which are fundamental to our examination of this innovative methodology, are discussed as a result of this experimentation.
翻訳日:2024-07-12 17:49:33 公開日:2024-07-11
# シルベスター方程式に基づくフロッケシュリーファー・ヴォルフ変換

Floquet Schrieffer-Wolff transform based on Sylvester equations ( http://arxiv.org/abs/2407.08405v1 )

ライセンス: Link先を確認
Xiao Wang, Fabio Pablo Miguel Méndez-Córdoba, Dieter Jaksch, Frank Schlawin, (参考訳) 我々は,Floquet Schrieffer Wolff変換(FSWT)を用いて,非共振駆動周波数に対して周期駆動多体系の実効的なFloquet Hamiltonianおよびマイクロモーション演算子を得る。 FSWTは作用素値のシルヴェスター方程式を解くことにより、駆動ハミルトニアンの振動成分を摂動的に除去する。 非駆動多体系の固有状態を知らずにこれらのシルヴェスター方程式を解く方法を示す。 高い駆動周波数の極限において、これらの解はよく知られたフロケ・マグナス展開の高周波限界に還元される。 我々は,この手法が,マルチオービタル・長距離相互作用系をインギャップで駆動するシステムを記述するのに役立つことを期待する。

We present a Floquet Schrieffer Wolff transform (FSWT) to obtain effective Floquet Hamiltonians and micro-motion operators of periodically driven many-body systems for any non-resonant driving frequency. The FSWT perturbatively eliminates the oscillatory components in the driven Hamiltonian by solving operator-valued Sylvester equations. We show how to solve these Sylvester equations without knowledge of the eigenstates of the undriven many-body system, using the driven Hubbard model as an example. In the limit of high driving frequencies, these solutions reduce to the well-known high-frequency limit of the Floquet-Magnus expansion. We anticipate this method will be useful for describing multi-orbital and long-range interacting systems driven in-gap.
翻訳日:2024-07-12 17:49:33 公開日:2024-07-11
# 海上アセットに対するサイバー攻撃と健康と安全への影響:全体像

Cyber Attacks on Maritime Assets and their Impacts on Health and Safety Aboard: A Holistic View ( http://arxiv.org/abs/2407.08406v1 )

ライセンス: Link先を確認
Mohammad Ammar, Irfan Ahmad Khan, (参考訳) 産業分野では、特に海洋産業において、前例のないデジタル化の推進力があった。 知的電子機器とITT対応サイバー物理システム(CPS)の融合は、資源の効率的な利用と利便性の向上に寄与している。 CPSは、産業資産のリアルタイム遠隔操作と管理を可能にした。 比較的孤立したレガシーシステムとは異なり、Information Technology(IT)とOperations Technology(OT)の中間的な性質はシステムの複雑さを増し、攻撃面を増大させた。 本研究は, オフショア油田, オフショア風力発電所, 自律型船舶などの高リスク資産に焦点をあて, より包括的な視点から, これらの攻撃の可能性を探るものである。 これらの攻撃は、このような技術の拡散によってより攻撃的になり、物理的プロセスが破壊され、火災や爆発の危険性を引き起こし、人間の生命と環境の健康を危険にさらす。 攻撃シナリオ、攻撃ベクトル、およびそれらの物理的影響は、そのような性質の既知のセキュリティ侵害とともに、人事の安全性と健康の観点から議論されてきた。 著者の知る限りでは、このような攻撃による人間や環境への影響をアクセントする作業はめったに行われない。

There has been an unprecedented digitization drive in the industrial sector, especially in the maritime industry. The profusion of intelligent electronic devices and IOT-enabled cyber-physical systems (CPS) has helped in the efficient use of resources and increased convenience. CPS has enabled real-time remote command and control of industrial assets. Unlike the relatively isolated legacy systems, the intertwined nature of Information Technology(IT) and Operations Technology(OT) brought by Industry 4.0 has increased the complexity of the systems, thereby increasing the attack surface. This work explores the possible consequences of these attacks from a more holistic view, focusing on high-risk assets such as offshore oil rigs, offshore wind farms, and autonomous vessels. The attacks have become more aggressive with the proliferation of such technologies, disrupting the physical process, causing fire and explosion hazards, and endangering human life and environmental health. The possible attack scenarios, the attack vectors, and their physical consequences have been discussed from the perspective of personnel safety and health, along with known security breaches of such nature. To the best of the authors' knowledge, seldom has any work been done that accentuates the possible human and environmental impacts of such attacks.
翻訳日:2024-07-12 17:49:33 公開日:2024-07-11
# ヨーロッパXFELにおけるクエンチ同定のための2段階学習支援手法

A Two-Stage Machine Learning-Aided Approach for Quench Identification at the European XFEL ( http://arxiv.org/abs/2407.08408v1 )

ライセンス: Link先を確認
Lynda Boukela, Annika Eichler, Julien Branlard, Nur Zulaiha Jomhari, (参考訳) 本稿では,欧州X線自由電子レーザーにおけるクエンチ識別のケーススタディに適用した機械学習支援型故障検出分離手法を提案する。 この工場は、最大17.5GeVの高エネルギーに電子束を加速するために800個の超伝導電波キャビティを使用している。 様々な障害事象は、キャビティの超伝導の喪失とそれらの動作の中断につながるクエンチを含む、加速器の名目上の機能を破壊しうる。 この文脈では、我々は2段階のアプローチでキャビティの力学を反映した信号を解析する。 一 分析冗長性を用いてデータを処理し、残余を生成する故障検出。 一般化確率比による残留物の評価は、欠陥挙動の検出を可能にする。 (II) 他の断層とクエンチを区別する断層分離。 そこで我々は,k-medoidsアルゴリズムのデータ駆動モデルを用いて,ユークリッドと動的時間ワープという,異なる類似度尺度を探索する。 最後に,本手法の評価を行い,現在展開中のクエンチ検出システムと比較した。

This paper introduces a machine learning-aided fault detection and isolation method applied to the case study of quench identification at the European X-Ray Free-Electron Laser. The plant utilizes 800 superconducting radio-frequency cavities in order to accelerate electron bunches to high energies of up to 17.5 GeV. Various faulty events can disrupt the nominal functioning of the accelerator, including quenches that can lead to a loss of the superconductivity of the cavities and the interruption of their operation. In this context, our solution consists in analyzing signals reflecting the dynamics of the cavities in a two-stage approach. (I) Fault detection that uses analytical redundancy to process the data and generate a residual. The evaluation of the residual through the generalized likelihood ratio allows detecting the faulty behaviors. (II) Fault isolation which involves the distinction of the quenches from the other faults. To this end, we proceed with a data-driven model of the k-medoids algorithm that explores different similarity measures, namely, the Euclidean and the dynamic time warping. Finally, we evaluate the new method and compare it to the currently deployed quench detection system, the results show the improved performance achieved by our method.
翻訳日:2024-07-12 17:49:33 公開日:2024-07-11
# 臨床眼科における視覚言語モデル

Specialist vision-language models for clinical ophthalmology ( http://arxiv.org/abs/2407.08410v1 )

ライセンス: Link先を確認
Robbie Holland, Thomas R. P. Taylor, Christopher Holmes, Sophie Riedl, Julia Mai, Maria Patsiamanidi, Dimitra Mitsopoulou, Paul Hager, Philip Müller, Hendrik P. N. Scholl, Hrvoje Bogunović, Ursula Schmidt-Erfurth, Daniel Rueckert, Sobha Sivaprasad, Andrew J. Lotery, Martin J. Menten, (参考訳) 臨床医は、医療画像のレビューにかなりの時間を費やし、患者の診断、紹介、およびテキスト形式の治療に関する知見を翻訳する。 画像を自動的に解釈し、結果をテキストとして要約する視覚言語モデル(VLM)は、臨床業務を緩和し、高品質な医療への患者アクセスを増大させる大きな可能性を秘めている。 基礎モデルは医療コミュニティにかなりの関心を惹き付けてきたが、その一般的な能力が現実の臨床的有用性に通じるかどうかは不明である。 本研究は, 加齢性黄斑変性症(AMD)患者の治療に不可欠な専門的課題について, 眼科医を実践するのに比べ, 基礎的VLMが著しく低下していることを示す。 そこで我々はまず,画像に基づく臨床意思決定に必要な機能を特定し,これらのスキルを学習するためのカリキュラムを開発した。 結果のモデルであるRetinaVLMは、疾患ステージング(F1スコア0.63対0.11)や患者紹介(0.67対0.39)において、主要な基礎医用VLMによって書かれたものよりも大幅に優れるレポートを書くように指示することができ、中等眼科医(それぞれのタスクで0.77と0.78を達成する)の診断性能にアプローチすることができる。 さらに、32年以上の経験を持つ2人の眼科医に関する読者調査では、RetinaVLMの報告も同様に正しい(78.6%対82.1%)こと、そして10年以上の経験を持つ中年眼科医が書いた報告(どちらも78.6%)であることが判明した。 これらの結果から,本カリキュラムをベースとしたアプローチは,現実の臨床的タスクを扱うための総合的基礎医療用VLMを専門とする青写真を提供することが示された。

Clinicians spend a significant amount of time reviewing medical images and transcribing their findings regarding patient diagnosis, referral and treatment in text form. Vision-language models (VLMs), which automatically interpret images and summarize their findings as text, have enormous potential to alleviate clinical workloads and increase patient access to high-quality medical care. While foundational models have stirred considerable interest in the medical community, it is unclear whether their general capabilities translate to real-world clinical utility. In this work, we show that foundation VLMs markedly underperform compared to practicing ophthalmologists on specialist tasks crucial to the care of patients with age-related macular degeneration (AMD). To address this, we initially identified the essential capabilities required for image-based clinical decision-making, and then developed a curriculum to selectively train VLMs in these skills. The resulting model, RetinaVLM, can be instructed to write reports that significantly outperform those written by leading foundation medical VLMs in disease staging (F1 score of 0.63 vs. 0.11) and patient referral (0.67 vs. 0.39), and approaches the diagnostic performance of junior ophthalmologists (who achieve 0.77 and 0.78 on the respective tasks). Furthermore, in a reader study involving two senior ophthalmologists with up to 32 years of experience, RetinaVLM's reports were found to be similarly correct (78.6% vs. 82.1%) and complete (both 78.6%) as reports written by junior ophthalmologists with up to 10 years of experience. These results demonstrate that our curriculum-based approach provides a blueprint for specializing generalist foundation medical VLMs to handle real-world clinical tasks.
翻訳日:2024-07-12 17:49:33 公開日:2024-07-11
# CLEO: 進化するオントロジーの継続的な学習

CLEO: Continual Learning of Evolving Ontologies ( http://arxiv.org/abs/2407.08411v1 )

ライセンス: Link先を確認
Shishir Muralidhara, Saqib Bukhari, Georg Schneider, Didier Stricker, René Schuster, (参考訳) 連続学習(CL)は、ニューラルネットワークにおける破滅的な忘れの問題に対処する。これは、トレーニングされたモデルが、新しいタスクを提示すると、以前に学習した情報を上書きする傾向がある場合に発生する。 CLは、知的システムに人間の生涯学習特性を組み込むことを目標としており、すでに学んだことを維持しながら継続的に学習することができる。 現在のCL問題は、新しいドメイン(ドメインインクリメンタル)または新しいクラス(クラスインクリメンタル)を学習することである。 しかし、一般的な学習プロセスは、学習情報だけでなく、既存の情報の洗練にも限界がある。 本稿では,CLEO-Continuous Learning of Evolving Ontology(進化オントロジーの連続学習)をCLの下での新たな漸進学習環境として定義する。 CLEOは、自律運転など、時間とともに変化する現実世界のオントロジーに適応するインテリジェントシステムの必要性によって動機付けられている。 私たちはCityscapes、PASCAL VOC、Mapillary Vistasを使ってタスク設定を定義し、CLEOの適用性を実証しています。 我々は、CLEOに適応する既存のCILメソッドの欠点を強調し、Modelling Ontologies (MoOn)と呼ばれるベースラインソリューションを提案する。 CLEOは、現実世界のアプリケーションにおけるオントロジの進化という課題に対処する、CLに対する有望な新しいアプローチである。 MoOnはCLEOのコンテキストにおいて、以前のCLアプローチを上回っている。

Continual learning (CL) addresses the problem of catastrophic forgetting in neural networks, which occurs when a trained model tends to overwrite previously learned information, when presented with a new task. CL aims to instill the lifelong learning characteristic of humans in intelligent systems, making them capable of learning continuously while retaining what was already learned. Current CL problems involve either learning new domains (domain-incremental) or new and previously unseen classes (class-incremental). However, general learning processes are not just limited to learning information, but also refinement of existing information. In this paper, we define CLEO - Continual Learning of Evolving Ontologies, as a new incremental learning setting under CL to tackle evolving classes. CLEO is motivated by the need for intelligent systems to adapt to real-world ontologies that change over time, such as those in autonomous driving. We use Cityscapes, PASCAL VOC, and Mapillary Vistas to define the task settings and demonstrate the applicability of CLEO. We highlight the shortcomings of existing CIL methods in adapting to CLEO and propose a baseline solution, called Modelling Ontologies (MoOn). CLEO is a promising new approach to CL that addresses the challenge of evolving ontologies in real-world applications. MoOn surpasses previous CL approaches in the context of CLEO.
翻訳日:2024-07-12 17:49:33 公開日:2024-07-11
# MeshAvatar: マルチビュービデオから高品質な三角形のアバターを学習する

MeshAvatar: Learning High-quality Triangular Human Avatars from Multi-view Videos ( http://arxiv.org/abs/2407.08414v1 )

ライセンス: Link先を確認
Yushuo Chen, Zerong Zheng, Zhe Li, Chao Xu, Yebin Liu, (参考訳) 多視点ビデオから高品質な三角アバターを学習するための新しいパイプラインを提案する。 アバター学習の最近の手法は、通常、従来のグラフィックスパイプラインと互換性がなく、異なる環境下での編集や合成といった操作に大きな課題を生じさせるニューラルラディアンス場(NeRF)に基づいている。 これらの制限を克服するため,提案手法は,任意のポーズに条件付けされた暗黙の物質場によって補完される暗黙のSDFフィールドから抽出された明示的な三角形メッシュでアバターを表現する。 この三角アバター表現を活用することで、物理に基づくレンダリングを取り入れ、幾何学とテクスチャを正確に分解する。 さらに, ネットワークバックボーンとして2次元UNetを用い, 疑似常軌跡を追加監視として導入する。 実験により,高品質な幾何再構成と可塑性材料分解による三角アバターの学習が可能であることが確認された。

We present a novel pipeline for learning high-quality triangular human avatars from multi-view videos. Recent methods for avatar learning are typically based on neural radiance fields (NeRF), which is not compatible with traditional graphics pipeline and poses great challenges for operations like editing or synthesizing under different environments. To overcome these limitations, our method represents the avatar with an explicit triangular mesh extracted from an implicit SDF field, complemented by an implicit material field conditioned on given poses. Leveraging this triangular avatar representation, we incorporate physics-based rendering to accurately decompose geometry and texture. To enhance both the geometric and appearance details, we further employ a 2D UNet as the network backbone and introduce pseudo normal ground-truth as additional supervision. Experiments show that our method can learn triangular avatars with high-quality geometry reconstruction and plausible material decomposition, inherently supporting editing, manipulation or relighting operations.
翻訳日:2024-07-12 17:39:27 公開日:2024-07-11
# 変分状態空間モデルによる自己回帰生成の並列化

Parallelizing Autoregressive Generation with Variational State Space Models ( http://arxiv.org/abs/2407.08415v1 )

ライセンス: Link先を確認
Gaspard Lambrechts, Yann Claes, Pierre Geurts, Damien Ernst, (参考訳) トランスフォーマーや状態空間モデル(SSM)のようなアテンションベースのモデルが自己回帰シーケンスモデリングの手法として成功した。 どちらも並列トレーニングが可能であるが、自己回帰性のために並列生成は不可能である。 本稿では,変分自動エンコーダ (VAE) である変分自動エンコーダ (VSSM) を提案する。 潜伏変数をサンプリングしてSSMで復号化できるので、トレーニングと生成の両方を並列に行うことができる。 さらに、デコーダの再発により、シーケンス全体を再処理することなく生成を再開することができる。 最後に、言語生成タスクでよく見られるように、シーケンスの部分的実現を前提とした自動回帰VSSMを提案する。 興味深いことに、自動回帰VSSMは依然として並列生成を可能にする。 我々は,玩具問題 (MNIST, CIFAR) のスピードアップの実証的な向上に注目し,世代品質(Transformer, Mamba SSM)の点で従来のモデルと競合することを示す。

Attention-based models such as Transformers and recurrent models like state space models (SSMs) have emerged as successful methods for autoregressive sequence modeling. Although both enable parallel training, none enable parallel generation due to their autoregressiveness. We propose the variational SSM (VSSM), a variational autoencoder (VAE) where both the encoder and decoder are SSMs. Since sampling the latent variables and decoding them with the SSM can be parallelized, both training and generation can be conducted in parallel. Moreover, the decoder recurrence allows generation to be resumed without reprocessing the whole sequence. Finally, we propose the autoregressive VSSM that can be conditioned on a partial realization of the sequence, as is common in language generation tasks. Interestingly, the autoregressive VSSM still enables parallel generation. We highlight on toy problems (MNIST, CIFAR) the empirical gains in speed-up and show that it competes with traditional models in terms of generation quality (Transformer, Mamba SSM).
翻訳日:2024-07-12 17:39:27 公開日:2024-07-11
# 多言語フェイクニュース分析におけるBERTopicの可能性の解明-Covid-19を事例として

Unveiling the Potential of BERTopic for Multilingual Fake News Analysis -- Use Case: Covid-19 ( http://arxiv.org/abs/2407.08417v1 )

ライセンス: Link先を確認
Karla Schäfer, Jeong-Eun Choi, Inna Vogel, Martin Steinebach, (参考訳) トピックモデリングは、ニュース記事やソーシャルメディアデータなどの大きなテキストコーパスの分析に頻繁に用いられている。 BERTopicは、文の埋め込み、次元の縮小、クラスタリング、トピック抽出で構成され、最新のSOTAトピックモデリング手法である。 しかし、現在のトピックモデリング手法は、教師なしの手法として、次元の縮小とクラスタリングのために、ハイパーパラメータの注意深いチューニングと選択を必要とするため、改善の余地がある。 本稿では,BERTopicの技術応用を実際に分析することを目的とする。 この目的のために、密度に基づくクラスタリング検証と6つの異なるトピックコヒーレンス尺度を通じてBERTopicの各ステージの異なるメソッドとハイパーパラメータを比較し、選択する。 さらに,実世界のデータを対象としたトピックモデリングの結果をユースケースとして分析することを目的とする。 この目的のために、Covid-19上のドイツの偽ニュースデータセット(GermanFakeNCovid)は、FakeCovidデータセットと組み合わせた多言語(英語とドイツ語)設定でトピックモデリングを実験するために、私たちによって作成されました。 最終的な結果から,米国とドイツの間での主題的類似性を決定することができた。 しかし、偽ニュースとインドを区別することはより困難であることが判明した。

Topic modeling is frequently being used for analysing large text corpora such as news articles or social media data. BERTopic, consisting of sentence embedding, dimension reduction, clustering, and topic extraction, is the newest and currently the SOTA topic modeling method. However, current topic modeling methods have room for improvement because, as unsupervised methods, they require careful tuning and selection of hyperparameters, e.g., for dimension reduction and clustering. This paper aims to analyse the technical application of BERTopic in practice. For this purpose, it compares and selects different methods and hyperparameters for each stage of BERTopic through density based clustering validation and six different topic coherence measures. Moreover, it also aims to analyse the results of topic modeling on real world data as a use case. For this purpose, the German fake news dataset (GermanFakeNCovid) on Covid-19 was created by us and in order to experiment with topic modeling in a multilingual (English and German) setting combined with the FakeCovid dataset. With the final results, we were able to determine thematic similarities between the United States and Germany. Whereas, distinguishing the topics of fake news from India proved to be more challenging.
翻訳日:2024-07-12 17:39:27 公開日:2024-07-11
# PredBench: さまざまな分野にわたる時空間予測のベンチマーク

PredBench: Benchmarking Spatio-Temporal Prediction across Diverse Disciplines ( http://arxiv.org/abs/2407.08418v1 )

ライセンス: Link先を確認
ZiDong Wang, Zeyu Lu, Di Huang, Tong He, Xihui Liu, Wanli Ouyang, Lei Bai, (参考訳) 本稿では,時空間予測ネットワークの全体的評価に適したベンチマークであるPredBenchを紹介する。 この分野では大きな進歩があったが、様々な予測ネットワークアーキテクチャの詳細と比較分析のための標準化されたフレームワークはいまだに存在しない。 PredBenchはこのギャップに対処するため、大規模な実験を行い、標準化された適切な実験環境を維持し、多次元評価を実装する。 このベンチマークは、広く採用されている12のメソッドと、複数のアプリケーションドメインにまたがる15の多様なデータセットを統合し、現代の時空間予測ネットワークを広範囲に評価する。 PredBenchは、様々なアプリケーションにわたる予測設定の厳密な校正を通じて、意図した使用に関する評価を保証し、公正な比較を可能にする。 さらに、その多次元評価フレームワークは、包括的なメトリクスセットで分析を拡張し、モデルの能力に関する深い洞察を提供する。 本研究から得られた知見は,今後の発展に向けての戦略的方向性を提供するものである。 私たちのコードベースはhttps://github.com/WZDTHU/PredBench.orgで公開されています。

In this paper, we introduce PredBench, a benchmark tailored for the holistic evaluation of spatio-temporal prediction networks. Despite significant progress in this field, there remains a lack of a standardized framework for a detailed and comparative analysis of various prediction network architectures. PredBench addresses this gap by conducting large-scale experiments, upholding standardized and appropriate experimental settings, and implementing multi-dimensional evaluations. This benchmark integrates 12 widely adopted methods with 15 diverse datasets across multiple application domains, offering extensive evaluation of contemporary spatio-temporal prediction networks. Through meticulous calibration of prediction settings across various applications, PredBench ensures evaluations relevant to their intended use and enables fair comparisons. Moreover, its multi-dimensional evaluation framework broadens the analysis with a comprehensive set of metrics, providing deep insights into the capabilities of models. The findings from our research offer strategic directions for future developments in the field. Our codebase is available at https://github.com/WZDTHU/PredBench.
翻訳日:2024-07-12 17:39:27 公開日:2024-07-11
# LLM App Storeの安全性について

On the (In)Security of LLM App Stores ( http://arxiv.org/abs/2407.08422v1 )

ライセンス: Link先を確認
Xinyi Hou, Yanjie Zhao, Haoyu Wang, (参考訳) LLMアプリストアは急速に成長し、多くのカスタムLDMアプリの普及につながった。 しかし、この拡張はセキュリティ上の懸念を引き起こす。 本研究では, LLMアプリの潜在的なセキュリティリスク,すなわち悪用可能性のLLMアプリ, 悪意のあるLLMアプリ, 悪用可能な脆弱性のLLMアプリの3層懸念フレームワークを提案する。 5ヶ月にわたって、GPT Store、FlowGPT、Poe、Coze、Cci、 character.AIという6つの主要なアプリストアから786,036個のLMアプリを収集しました。 本研究では,静的および動的解析,31,783以上の項目からなる大規模有毒単語辞書(ToxicDict)の開発,脅威を識別・緩和するための自動監視ツールを統合する。 15,146のアプリが誤解を招く説明をし、1,366件の個人情報をプライバシーポリシーに対して収集し、15,996件のヘイトスピーチ、自傷行為、過激主義などの有害なコンテンツを生成した。 さらに,LSMアプリが悪意ある活動を促進する可能性を評価し,マルウェア生成やフィッシングなどに616のアプリが使用できることを確認した。 本研究は,厳格な規制枠組みと強化された執行機構の必要性を浮き彫りにしている。

LLM app stores have seen rapid growth, leading to the proliferation of numerous custom LLM apps. However, this expansion raises security concerns. In this study, we propose a three-layer concern framework to identify the potential security risks of LLM apps, i.e., LLM apps with abusive potential, LLM apps with malicious intent, and LLM apps with exploitable vulnerabilities. Over five months, we collected 786,036 LLM apps from six major app stores: GPT Store, FlowGPT, Poe, Coze, Cici, and Character.AI. Our research integrates static and dynamic analysis, the development of a large-scale toxic word dictionary (i.e., ToxicDict) comprising over 31,783 entries, and automated monitoring tools to identify and mitigate threats. We uncovered that 15,146 apps had misleading descriptions, 1,366 collected sensitive personal information against their privacy policies, and 15,996 generated harmful content such as hate speech, self-harm, extremism, etc. Additionally, we evaluated the potential for LLM apps to facilitate malicious activities, finding that 616 apps could be used for malware generation, phishing, etc. Our findings highlight the urgent need for robust regulatory frameworks and enhanced enforcement mechanisms.
翻訳日:2024-07-12 17:39:27 公開日:2024-07-11
# リーマン最適化による量子符号の探索

Finding Quantum Codes via Riemannian Optimization ( http://arxiv.org/abs/2407.08423v1 )

ライセンス: Link先を確認
Miguel Casanova, Kentaro Ohki, Francesco Ticozzi, (参考訳) 本稿では、既知の量子ノイズチャネルに対して最適に修正可能な部分空間符号を求めるための新しい最適化手法を提案する。 各候補部分空間符号に対して、コードは完全に修正可能であるかのように、まずユニバーサルリカバリマップを関連付け、改良されたチャネル忠実度とより単純なコードを促進する調整可能な正規化項を組み合わせた性能関数を最大化することを目的としている。 この選択により、最適化はコードのセット上でのみ行われ、リカバリオペレータのセット上では行われない。 固定次元の符号の集合は、同じ次元の複素値のスティーフェル多様体としてパラメータ化され、結果として得られる非凸最適化問題は勾配に基づく局所アルゴリズムによって解かれる。 完全修正可能な符号が見つからないとき、第二の最適化ルーチンは、回復クラス写像上で実行され、Stinespring表現を介して適切なスティーフェル多様体でパラメータ化される。 アプローチをテストするために、修正可能なコードは、ビットフリップエラーを受ける3つのキュービット(シングルと相関)、局所振幅減衰を受ける4つのキュービット、局所分極チャネルを受ける5つのキュービットの3つのキュービットと、異なるシナリオで検索される。 前回の例では近似符号が発見されテストされ、純正のマルコフ非強調ノイズは7/2$のスピンバスに作用し、1/2$のスピンバスと、IBMの‘texttt{ibm\_kyoto}量子コンピュータの最初の3キュービットのノイズが検出された。 忠実度は既存の反復最適化アルゴリズムと競合し、より単純なコードを取得しながら強力な計算上の優位性を維持する。

We propose a novel optimization scheme designed to find optimally correctable subspace codes for a known quantum noise channel. To each candidate subspace code we first associate a universal recovery map, as if the code was perfectly correctable, and aim to maximize a performance functional that combines a modified channel fidelity with a tuneable regularization term that promotes simpler codes. With this choice optimization is performed only over the set of codes, and not over the set of recovery operators. The set of codes of fixed dimensions is parametrized as the complex-valued Stiefel manifold of the same dimension: the resulting non-convex optimization problem is then solved by gradient-based local algorithms. When perfectly correctable codes cannot be found, a second optimization routine is run on the recovery Kraus map, also parametrized in a suitable Stiefel manifold via Stinespring representation. To test the approach, correctable codes are sought in different scenarios and compared to existing ones: three qubits subjected to bit-flip errors (single and correlated), four qubits undergoing local amplitude damping and five qubits subjected to local depolarizing channels. Approximate codes are found and tested for the previous examples as well pure non-Markovian dephasing noise acting on a $7/2$ spin, induced by a $1/2$ spin bath, and the noise of the first three qubits of IBM's \texttt{ibm\_kyoto} quantum computer. The fidelity results are competitive with existing iterative optimization algorithms, with respect to which we maintain a strong computational advantage, while obtaining simpler codes.
翻訳日:2024-07-12 17:39:27 公開日:2024-07-11
# ヒューマンビデオ生成に関する包括的調査 : 課題,方法,展望

A Comprehensive Survey on Human Video Generation: Challenges, Methods, and Insights ( http://arxiv.org/abs/2407.08428v1 )

ライセンス: Link先を確認
Wentao Lei, Jinting Wang, Fengji Ma, Guanjie Huang, Li Liu, (参考訳) ヒューマンビデオ生成は、テキスト、オーディオ、ポーズなどの制御条件を与えられた生成モデルを用いて2次元の人体ビデオシーケンスを合成することを目的として、動的で急速に進化するタスクである。 映画、ゲーム、バーチャルコミュニケーションにおける幅広い応用の可能性を考えると、自然でリアルな人間のビデオを生成する能力は不可欠である。 近年の世代モデルの発展は、この分野への関心の高まりに確かな基盤を築き上げている。 著しい進歩にもかかわらず、キャラクターの整合性、人間の動きの複雑さ、環境との関わりの難しさなど、人間の映像生成の課題は依然として困難なままである。 この調査は、人間のビデオ生成の現状、マーキング、そして私たちの知る限り、この領域における最初の広範な文献レビューの総合的なレビューを提供する。 まず、人間のビデオ生成の基本と、フィールドの成長を促進する生成モデルの進化について紹介する。 次に、人間のビデオ生成における3つの重要なサブタスク(テキスト駆動、音声駆動、ポーズ駆動のモーション生成)に使用される主要な手法について検討する。 これらの領域は、生成過程を導く条件について検討されている。 さらに、最もよく利用されるデータセットのコレクションと、生成されたビデオの品質とリアリズムを評価する上で重要な評価指標を提供する。 この調査は、この分野における現在の課題に関する議論から締めくくられ、今後の研究の方向性が示唆される。 この調査の目的は、人間のビデオ生成の進歩について、研究コミュニティに明確で総合的な視点を提供することであり、達成されたマイルストーンと今後の課題を強調している。

Human video generation is a dynamic and rapidly evolving task that aims to synthesize 2D human body video sequences with generative models given control conditions such as text, audio, and pose. With the potential for wide-ranging applications in film, gaming, and virtual communication, the ability to generate natural and realistic human video is critical. Recent advancements in generative models have laid a solid foundation for the growing interest in this area. Despite the significant progress, the task of human video generation remains challenging due to the consistency of characters, the complexity of human motion, and difficulties in their relationship with the environment. This survey provides a comprehensive review of the current state of human video generation, marking, to the best of our knowledge, the first extensive literature review in this domain. We start with an introduction to the fundamentals of human video generation and the evolution of generative models that have facilitated the field's growth. We then examine the main methods employed for three key sub-tasks within human video generation: text-driven, audio-driven, and pose-driven motion generation. These areas are explored concerning the conditions that guide the generation process. Furthermore, we offer a collection of the most commonly utilized datasets and the evaluation metrics that are crucial in assessing the quality and realism of generated videos. The survey concludes with a discussion of the current challenges in the field and suggests possible directions for future research. The goal of this survey is to offer the research community a clear and holistic view of the advancements in human video generation, highlighting the milestones achieved and the challenges that lie ahead.
翻訳日:2024-07-12 17:39:27 公開日:2024-07-11
# 放射線治療におけるサブグループ特異的リスク制御線量推定

Subgroup-Specific Risk-Controlled Dose Estimation in Radiotherapy ( http://arxiv.org/abs/2407.08432v1 )

ライセンス: Link先を確認
Paul Fischer, Hannah Willms, Moritz Schneider, Daniela Thorwarth, Michael Muehlebach, Christian F. Baumgartner, (参考訳) がんは依然として死の主な原因であり、効果的な放射線療法(RT)の重要性を強調している。 磁気共鳴誘導線形加速器(MR-Linacs)はRT中のイメージングを可能にし、インターフレクションや治療計画の調整を可能にしている。 しかし、これを実現するには、高速で正確な線量計算が必要である。 モンテカルロシミュレーションは正確性を提供するが、それらは計算集約的である。 ディープラーニングフレームワークは将来性を示しているが、RTのようなハイリスクアプリケーションには不確実な定量化が不可欠ではない。 リスク制御予測セット(RCPS)は、数学的保証を伴うモデルに依存しない不確実性定量化を提供する。 しかし, RCPSの単純適用は, 画像背景などの特定のサブグループにのみリスクが制御されることが示唆された。 本研究では、RCPSを拡張して、テスト時に未知のサブグループメンバーシップを持つ複数のサブグループに対して、カバレッジ保証付き予測間隔を提供する。 本アルゴリズムは5つの解剖学的領域の実際の臨床計画量に基づいて評価し,新しいサブグループRCPS (SG-RCPS) アルゴリズムが複数のサブグループのリスクを共同制御する予測間隔をもたらすことを示す。 特に,本手法は,従来のRCPSよりも放射線ビームに沿った重要なボクセルのリスクを著しく制御する。

Cancer remains a leading cause of death, highlighting the importance of effective radiotherapy (RT). Magnetic resonance-guided linear accelerators (MR-Linacs) enable imaging during RT, allowing for inter-fraction, and perhaps even intra-fraction, adjustments of treatment plans. However, achieving this requires fast and accurate dose calculations. While Monte Carlo simulations offer accuracy, they are computationally intensive. Deep learning frameworks show promise, yet lack uncertainty quantification crucial for high-risk applications like RT. Risk-controlling prediction sets (RCPS) offer model-agnostic uncertainty quantification with mathematical guarantees. However, we show that naive application of RCPS may lead to only certain subgroups such as the image background being risk-controlled. In this work, we extend RCPS to provide prediction intervals with coverage guarantees for multiple subgroups with unknown subgroup membership at test time. We evaluate our algorithm on real clinical planing volumes from five different anatomical regions and show that our novel subgroup RCPS (SG-RCPS) algorithm leads to prediction intervals that jointly control the risk for multiple subgroups. In particular, our method controls the risk of the crucial voxels along the radiation beam significantly better than conventional RCPS.
翻訳日:2024-07-12 17:39:27 公開日:2024-07-11
# Open-Access Synthetic Profile を用いたトランスファーラーニングによるエネルギーコミュニティの負荷予測の改善

Improve Load Forecasting in Energy Communities through Transfer Learning using Open-Access Synthetic Profiles ( http://arxiv.org/abs/2407.08434v1 )

ライセンス: Link先を確認
Lukas Moosbrugger, Valentin Seiler, Gerhard Huber, Peter Kepplinger, (参考訳) 保守的な推計によると、10GWエネルギーユーティリティの予測誤差を1%削減すれば、年間最大1.6億ドルの節約が可能である。 この文脈では、モデル予測制御を用いたフレキシブルエネルギー資産の運用には、将来の電力消費の正確な予測が不可欠である。 特に、この研究は、歴史的データ可用性の制限という共通の実践的課題を伴う1年目のエネルギーコミュニティの負荷プロファイル予測に焦点を当てている。 本稿では,この課題に対処するためにトランスファーラーニング手法を用いて,オープンアクセス型合成負荷プロファイルを用いた負荷予測モデルの事前学習を提案する。 その結果,本手法はトレーニング安定性と予測誤差の両方を改善していることがわかった。 74世帯を対象にした試験では, 推定平均二乗誤差(MSE)が0.34から0.13に減少し, 履歴データの欠如を補うために, 合成負荷プロファイルに基づく伝達学習が有効であった。

According to a conservative estimate, a 1% reduction in forecast error for a 10 GW energy utility can save up to $ 1.6 million annually. In our context, achieving precise forecasts of future power consumption is crucial for operating flexible energy assets using model predictive control approaches. Specifically, this work focuses on the load profile forecast of a first-year energy community with the common practical challenge of limited historical data availability. We propose to pre-train the load prediction models with open-access synthetic load profiles using transfer learning techniques to tackle this challenge. Results show that this approach improves both, the training stability and prediction error. In a test case with 74 households, the prediction mean squared error (MSE) decreased from 0.34 to 0.13, showing transfer learning based on synthetic load profiles to be a viable approach to compensate for a lack of historic data.
翻訳日:2024-07-12 17:39:27 公開日:2024-07-11
# 命令追従を超えて: 大規模言語モデルの規則追従を評価する

Beyond Instruction Following: Evaluating Rule Following of Large Language Models ( http://arxiv.org/abs/2407.08440v1 )

ライセンス: Link先を確認
Wangtao Sun, Chenxiang Zhang, Xueyou Zhang, Ziyang Huang, Haotian Xu, Pei Chen, Shizhu He, Jun Zhao, Kang Liu, (参考訳) LLM(Large Language Models)は、強力な命令追従能力を示したが、現実のシナリオにおけるルールによって制御され、ガイドされ、安全で、応答の正確さが求められる。 これにより、LSMのルール追従能力の保有が要求される。 しかし、LLMの規則追従能力を明確に評価する研究はほとんどない。 LLMのルール追従能力を評価しようとする従来の研究は、ルール追従シナリオと命令追従シナリオを区別することができない。 そこで本研究ではまず,ルールフォローの概念を明確にし,包括的なベンチマークであるルールベンチをキュレートして,ルールフォロー能力の多様化範囲を評価する。 各種LLMに関する実験結果から, 以下のルールで制限されていることが明らかとなった。 我々のさらなる分析は、より優れたルールに従うインテリジェントエージェントに向けたLCMの改善に関する洞察を提供する。 https://anonymous.4open.science/r/llm-rule-following-B3E3/

Although Large Language Models (LLMs) have demonstrated strong instruction-following ability to be helpful, they are further supposed to be controlled and guided by rules in real-world scenarios to be safe, and accurate in responses. This demands the possession of rule-following capability of LLMs. However, few works have made a clear evaluation of the rule-following capability of LLMs. Previous studies that try to evaluate the rule-following capability of LLMs fail to distinguish the rule-following scenarios from the instruction-following scenarios. Therefore, this paper first makes a clarification of the concept of rule-following, and curates a comprehensive benchmark, RuleBench, to evaluate a diversified range of rule-following abilities. Our experimental results on a variety of LLMs show that they are still limited in following rules. Our further analysis provides insights into the improvements for LLMs toward a better rule-following intelligent agent. The data and code can be found at: https://anonymous.4open.science/r/llm-rule-following-B3E3/
翻訳日:2024-07-12 17:39:27 公開日:2024-07-11
# 大規模言語モデルは本当にバイアスフリーか?

Are Large Language Models Really Bias-Free? Jailbreak Prompts for Assessing Adversarial Robustness to Bias Elicitation ( http://arxiv.org/abs/2407.08441v1 )

ライセンス: Link先を確認
Riccardo Cantini, Giada Cosenza, Alessio Orsino, Domenico Talia, (参考訳) 大規模言語モデル(LLM)は人工知能に革命をもたらし、卓越した計算能力と言語能力を示している。 しかし、これらのモデルは本質的に、トレーニングデータから生じる様々なバイアスに起因している。 選択、言語、確認バイアス、および性別、民族性、性的指向、宗教、社会経済的地位、障害、年齢に関する共通のステレオタイプが含まれる。 本研究は,近年のLCMの応答におけるこれらのバイアスの存在について検討し,その公正さと信頼性への影響を分析した。 また,LLMの隠れバイアスを効果的に明らかにするために,既知のプロンプト技術をどのように活用することができるかを検討する。 大規模な実験は、様々なスケールで最も広範囲なLLMを使用して行われ、高度な能力と高度なアライメントプロセスにもかかわらず、LLMがバイアスあるいは不適切な応答を生成するように操作可能であることを確認した。 我々の発見は、より持続的で包括的な人工知能に向けて、これらの安全問題に対処するための緩和技術を強化することの重要性を浮き彫りにしている。

Large Language Models (LLMs) have revolutionized artificial intelligence, demonstrating remarkable computational power and linguistic capabilities. However, these models are inherently prone to various biases stemming from their training data. These include selection, linguistic, and confirmation biases, along with common stereotypes related to gender, ethnicity, sexual orientation, religion, socioeconomic status, disability, and age. This study explores the presence of these biases within the responses given by the most recent LLMs, analyzing the impact on their fairness and reliability. We also investigate how known prompt engineering techniques can be exploited to effectively reveal hidden biases of LLMs, testing their adversarial robustness against jailbreak prompts specially crafted for bias elicitation. Extensive experiments are conducted using the most widespread LLMs at different scales, confirming that LLMs can still be manipulated to produce biased or inappropriate responses, despite their advanced capabilities and sophisticated alignment processes. Our findings underscore the importance of enhancing mitigation techniques to address these safety issues, toward a more sustainable and inclusive artificial intelligence.
翻訳日:2024-07-12 17:39:27 公開日:2024-07-11
# 指導の深さはどれくらいか? : 医学的時系列インプットのための深層学習の新たな展望

How Deep is your Guess? A Fresh Perspective on Deep Learning for Medical Time-Series Imputation ( http://arxiv.org/abs/2407.08442v1 )

ライセンス: Link先を確認
Linglong Qian, Tao Wang, Jun Wang, Hugh Logan Ellis, Robin Mitra, Richard Dobson, Zina Ibrahim, (参考訳) 本稿では,深層学習を用いた時系列計算のための新しい分類フレームワークについて紹介する。 文献における概念的ギャップと既存のレビューを識別することにより、ニューラル・インキュベーション・フレームワークの帰納的バイアスに基づく分類法を考案し、特定のインキュベーション・シナリオやデータ固有の特性に対して適合性に基づいて既存のディープ・インキュベーション・ストラテジーを分類する。 本研究は, 深層計算モデルのベンチマークに用いられている既存の手法について検討し, 臨床データの欠落シナリオを捉える上での有効性を検証し, 数学的抽象化を臨床的知見と整合させることの重要性を強調した。 本分類は,特定の臨床データに適合した適切な深層学習計算技術の選択を容易にするためのガイドとなることを目的としている。 我々の新しい視点は、臨床的に健全な計算モデルを達成するために、計算方法論と医学的洞察のギャップを埋めることの重要性も強調している。

We introduce a novel classification framework for time-series imputation using deep learning, with a particular focus on clinical data. By identifying conceptual gaps in the literature and existing reviews, we devise a taxonomy grounded on the inductive bias of neural imputation frameworks, resulting in a classification of existing deep imputation strategies based on their suitability for specific imputation scenarios and data-specific properties. Our review further examines the existing methodologies employed to benchmark deep imputation models, evaluating their effectiveness in capturing the missingness scenarios found in clinical data and emphasising the importance of reconciling mathematical abstraction with clinical insights. Our classification aims to serve as a guide for researchers to facilitate the selection of appropriate deep learning imputation techniques tailored to their specific clinical data. Our novel perspective also highlights the significance of bridging the gap between computational methodologies and medical insights to achieve clinically sound imputation models.
翻訳日:2024-07-12 17:39:27 公開日:2024-07-11
# 無限運動:長文命令による拡張運動生成

Infinite Motion: Extended Motion Generation via Long Text Instructions ( http://arxiv.org/abs/2407.08443v1 )

ライセンス: Link先を確認
Mengtian Li, Chengshuo Zhai, Shengxiang Yao, Zhifeng Xie, Keyu Chen Yu-Gang Jiang, (参考訳) モーションジェネレーションの領域では、長周期で高品質なモーションシーケンスの作成は依然として重要な課題である。 本稿では,長文から長文へ拡張された動き生成に活用し,短文と長文の運動合成のギャップを効果的に埋める新しい手法である「無限運動」に関する画期的な研究について述べる。 私たちの中核となる洞察は、既存の高品質なテキストモーションデータセットの戦略的拡張と再組み立てであり、それによって、拡張されたモーションシーケンスのためのモデルのトレーニングを容易にする新しいベンチマークデータセットが作成されました。 我々のモデルの重要な革新は、任意の長さのテキストを入力として受け入れることであり、特定の物語やシナリオに合わせた動き列の生成を可能にする。 さらに、テキストのタイムスタンプ設計を取り入れ、生成したシーケンス内の局所セグメントの正確な編集を可能にし、非並列制御と動き合成の柔軟性を提供する。 さらに、自然言語インタラクティブな編集、長いシーケンス内の動作シーケンスの編集、独立した動きシーケンスのスプライシングという3つの応用を通して、「無限運動」の汎用性と実用性を実証する。 各アプリケーションは、我々のアプローチの適応性を強調し、モーションジェネレーションにおける研究と開発の可能性の範囲を広げる。 大規模な実験を通じて,既存手法と比較して長周期動作の生成におけるモデルの性能を実証する。プロジェクトページ: https://shuochengzhai.github.io/ Infinite-motion.github.io/

In the realm of motion generation, the creation of long-duration, high-quality motion sequences remains a significant challenge. This paper presents our groundbreaking work on "Infinite Motion", a novel approach that leverages long text to extended motion generation, effectively bridging the gap between short and long-duration motion synthesis. Our core insight is the strategic extension and reassembly of existing high-quality text-motion datasets, which has led to the creation of a novel benchmark dataset to facilitate the training of models for extended motion sequences. A key innovation of our model is its ability to accept arbitrary lengths of text as input, enabling the generation of motion sequences tailored to specific narratives or scenarios. Furthermore, we incorporate the timestamp design for text which allows precise editing of local segments within the generated sequences, offering unparalleled control and flexibility in motion synthesis. We further demonstrate the versatility and practical utility of "Infinite Motion" through three specific applications: natural language interactive editing, motion sequence editing within long sequences and splicing of independent motion sequences. Each application highlights the adaptability of our approach and broadens the spectrum of possibilities for research and development in motion generation. Through extensive experiments, we demonstrate the superior performance of our model in generating long sequence motions compared to existing methods.Project page: https://shuochengzhai.github.io/Infinite-motion.github.io/
翻訳日:2024-07-12 17:39:27 公開日:2024-07-11
# 野生ガウシ人:野生で3Dガウシ人

WildGaussians: 3D Gaussian Splatting in the Wild ( http://arxiv.org/abs/2407.08447v1 )

ライセンス: Link先を確認
Jonas Kulhanek, Songyou Peng, Zuzana Kukelova, Marc Pollefeys, Torsten Sattler, (参考訳) 3次元シーン再構成の分野は、その光リアリスティックな品質のためにNeRFに支配されているが、3Dガウススプラッティング(3DGS)が最近登場し、リアルタイムレンダリング速度に類似した品質を提供している。 しかし、両手法は、主によく制御された3Dシーンで優れており、その一方で、オクルージョン、ダイナミックオブジェクト、そして様々な照明によって特徴付けられる、Wild内のデータは、依然として困難なままである。 NeRFは画像ごとの埋め込みベクトルによって容易にそのような条件に適応できるが、3DGSはその明示的な表現と共有パラメータの欠如のために困難である。 これを解決するために,3DGSで閉塞や外観変化を処理する新しいアプローチであるWildGaussiansを紹介した。 頑健なDINO機能を活用して3DGSに外観モデリングモジュールを組み込むことにより,本手法は最先端の結果を得る。 我々はWildGaussianが3DGSとNeRFのベースラインを越えながら3DGSのリアルタイムレンダリング速度にマッチすることを示した。

While the field of 3D scene reconstruction is dominated by NeRFs due to their photorealistic quality, 3D Gaussian Splatting (3DGS) has recently emerged, offering similar quality with real-time rendering speeds. However, both methods primarily excel with well-controlled 3D scenes, while in-the-wild data - characterized by occlusions, dynamic objects, and varying illumination - remains challenging. NeRFs can adapt to such conditions easily through per-image embedding vectors, but 3DGS struggles due to its explicit representation and lack of shared parameters. To address this, we introduce WildGaussians, a novel approach to handle occlusions and appearance changes with 3DGS. By leveraging robust DINO features and integrating an appearance modeling module within 3DGS, our method achieves state-of-the-art results. We demonstrate that WildGaussians matches the real-time rendering speed of 3DGS while surpassing both 3DGS and NeRF baselines in handling in-the-wild data, all within a simple architectural framework.
翻訳日:2024-07-12 17:39:27 公開日:2024-07-11
# 不規則・不整合衛星画像時系列の基礎モデルへの道を開く

Paving the way toward foundation models for irregular and unaligned Satellite Image Time Series ( http://arxiv.org/abs/2407.08448v1 )

ライセンス: Link先を確認
Iris Dumeur, Silvia Valero, Jordi Inglada, (参考訳) 近年,衛星リモートセンシング画像の基礎モデルがいくつか提案されているが,実・運用上の大きな課題に対処するには至っていない。 実際、データのスペクトル、空間的、時間的次元や不規則な時間的サンプリングを考慮しない埋め込みは、ほとんどの現実世界ではほとんど役に立たないが、結果として、不規則で非整合なSITSの空間的、スペクトル的、時間的次元を活用する新しいアプローチであるALISE(ALIgned Sits Encoder)を提案する。 SITSで現在利用可能なSSLモデルとは異なり、ALISEはSITSを共通の学習された時間的プロジェクション空間に投影するための柔軟なクエリメカニズムを組み込んでいる。 さらに、マルチビューフレームワークにより、マスク付き自動エンコーディングタスクとSITSのインスタンス識別の統合について検討する。 生成した表現の質は、3つの下流タスク(PASTIS)、土地被覆セグメンテーション(MultiSenGE)、および新しい作物変化検出データセットによって評価される。 さらに、変更検出タスクを監督せずに行う。 その結果,線形探索セグメンテーションタスクにおいて,アライメント表現の使用は従来のSSLメソッドよりも効果的であることが示唆された。

Although recently several foundation models for satellite remote sensing imagery have been proposed, they fail to address major challenges of real/operational applications. Indeed, embeddings that don't take into account the spectral, spatial and temporal dimensions of the data as well as the irregular or unaligned temporal sampling are of little use for most real world uses.As a consequence, we propose an ALIgned Sits Encoder (ALISE), a novel approach that leverages the spatial, spectral, and temporal dimensions of irregular and unaligned SITS while producing aligned latent representations. Unlike SSL models currently available for SITS, ALISE incorporates a flexible query mechanism to project the SITS into a common and learned temporal projection space. Additionally, thanks to a multi-view framework, we explore integration of instance discrimination along a masked autoencoding task to SITS. The quality of the produced representation is assessed through three downstream tasks: crop segmentation (PASTIS), land cover segmentation (MultiSenGE), and a novel crop change detection dataset. Furthermore, the change detection task is performed without supervision. The results suggest that the use of aligned representations is more effective than previous SSL methods for linear probing segmentation tasks.
翻訳日:2024-07-12 17:39:27 公開日:2024-07-11
# Model tell you to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks

Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks ( http://arxiv.org/abs/2407.08454v1 )

ライセンス: Link先を確認
Zheng Wang, Boxiao Jin, Zhongzhi Yu, Minjia Zhang, (参考訳) 大規模言語モデル (LLM) を効率的に利用する方法は, 自己回帰生成プロセスにおいて計算コストが大きいため, 問題となっている。 計算コストを軽減するため、LLMは生成速度を改善するためにKVキャッシュ技術を使用することが多い。 計算効率は向上するが、KVキャッシュのストレージ要求は特に長期コンテキストのシナリオでは大幅に増加し、メモリ消費は大幅に増加する。 既存のKVキャッシュ消去手法は、消去によって引き起こされる情報損失により、長いコンテキストシナリオにおいてLLMの性能を劣化させることが多い。 本稿では,KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案する。 我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。 マージを容易にするために, マージに適したKV状態を特定するために, 効果的かつ簡単なマージセット識別アルゴリズムを開発した。 我々のマージセット識別アルゴリズムは、類似性の観点から、KVキャッシュのスパーシティがデータセットとは独立であり、モデルレベルで持続的であるという2つ目の観察を刺激する。 次に,各マージ集合内の全ての状態を選択的にマージするガウスカーネル重み付きマージアルゴリズムを提案する。 我々は,Llama2-7B-chatやLlama2-13B-chatなどのモデルに適用し,制約付きメモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を実証するための広範な実験を行った。 本稿では,LongBench と ZeroScroll のベンチマークを用いて,H2O と CaM を含む他の KV キャッシュ圧縮手法と比較し,50% と 35% の KV キャッシュ予算でタスク間で優れた性能を実現することを示す。

How to efficiently serve Large Language Models (LLMs) has become a pressing issue because of their huge computational cost in their autoregressive generation process. To mitigate computational costs, LLMs often employ the KV Cache technique to improve the generation speed. While improving the computational efficiency, the storage requirements of the KV cache are substantial, particularly in long-context scenarios, leading to significant memory consumption. Existing KV cache eviction methods often degrade the performance of LLMs in long-context scenarios due to the information loss introduced by eviction. In this paper, we propose a novel KV cache merging approach, called KVMerger, to achieve adaptive KV cache compression for long-context tasks without significant performance degradation under constrained memory budgets. Our approach is inspired by the intriguing observation that key states exhibit high similarity at the token level within a single sequence. To facilitate merging, we develop an effective yet straightforward merging set identification algorithm to identify suitable KV states for merging. Our merging set identification algorithm stimulates the second observation that KV cache sparsity, from similarity perspective, is independent of the dataset and remains persistent at the model level. Subsequently, we propose a Gaussian kernel weighted merging algorithm to selectively merge all states within each merging set. We conduct extensive experiments to demonstrate the effectiveness of KVMerger for long-context tasks under constrained memory budgets, applying it to models including Llama2-7B-chat and Llama2-13B-chat. Using the LongBench and ZeroScroll benchmarks, we compare our method with other KV cache compression techniques, including H2O and CaM, showing that our method achieves superior performance across tasks with both 50% and 35% KV cache budgets.
翻訳日:2024-07-12 17:29:40 公開日:2024-07-11
# 誘導的述語合成モジュロプログラム(拡張)

Inductive Predicate Synthesis Modulo Programs (Extended) ( http://arxiv.org/abs/2407.08455v1 )

ライセンス: Link先を確認
Scott Wesley, Maria Christakis, Jorge A. Navas, Richard Trefler, Valentin Wüstholz, Arie Gurfinkel, (参考訳) プログラム解析のトレンドは、入力プログラムの言語内で検証条件を符号化することである。 これにより、既製の検証器を利用することで解析ツールの設計が簡単になるが、基礎となる解決器との通信がより困難になる。 本質的には、アナライザは入力プログラムのレベルで動作し、ソルバは問題のエンコーディングのレベルで動作します。 このギャップを埋めるためには、検証者は解析器から解法器に証明ルールを通さなければならない。 例えば、帰納的プログラム検証器上に構築された並列プログラムのアナライザは、基礎となる解法に対してOwicki-Griesスタイルの証明ルールを宣言する必要があるかもしれない。 このような証明ルールは、プログラムをどのように検証すべきかをさらに特定し、つまり証明ルールを通過させる問題は不変合成の形式である。 同様に、多くのプログラム解析タスクは純粋でループのないブール関数(つまり述語)のプログラムに対する合成に還元される。 そこで本研究では,高次言語を最小限の合成機能で拡張したインダクティブ述語合成モデュロプログラム(IPS-MP)を提案する。 IPS-MPでは、未知の述語は仮定と主張の下に現れ、プログラムのセマンティクスを調節する仕様として機能する。 既存の合成解法はIPS-MPでは非効率であり、より一般的な問題をターゲットにしている。 本稿では, IPS-MP は一般に決定不能であるにもかかわらず, Boolean の場合において効率的な解であることを示す。 さらに、IPS-MPは、既存の合成問題よりも一般的ではない制約付きホーン節の満足度を低下させるが、検証タスクを符号化するのに十分な表現性を示すことを示す。 パラメータ化モデルチェックなどの検証タスクをIPS-MPに還元する。 SeaHorn に基づく IPS-MP-solver によるこれらの削減を実現し,スマートコントラクト検証への応用について述べる。

A growing trend in program analysis is to encode verification conditions within the language of the input program. This simplifies the design of analysis tools by utilizing off-the-shelf verifiers, but makes communication with the underlying solver more challenging. Essentially, the analyzer operates at the level of input programs, whereas the solver operates at the level of problem encodings. To bridge this gap, the verifier must pass along proof-rules from the analyzer to the solver. For example, an analyzer for concurrent programs built on an inductive program verifier might need to declare Owicki-Gries style proof-rules for the underlying solver. Each such proof-rule further specifies how a program should be verified, meaning that the problem of passing proof-rules is a form of invariant synthesis. Similarly, many program analysis tasks reduce to the synthesis of pure, loop-free Boolean functions (i.e., predicates), relative to a program. From this observation, we propose Inductive Predicate Synthesis Modulo Programs (IPS-MP) which extends high-level languages with minimal synthesis features to guide analysis. In IPS-MP, unknown predicates appear under assume and assert statements, acting as specifications modulo the program semantics. Existing synthesis solvers are inefficient at IPS-MP as they target more general problems. In this paper, we show that IPS-MP admits an efficient solution in the Boolean case, despite being generally undecidable. Moreover, we show that IPS-MP reduces to the satisfiability of constrained Horn clauses, which is less general than existing synthesis problems, yet expressive enough to encode verification tasks. We provide reductions from challenging verification tasks -- such as parameterized model checking -- to IPS-MP. We realize these reductions with an efficient IPS-MP-solver based on SeaHorn, and describe a application to smart-contract verification.
翻訳日:2024-07-12 17:29:40 公開日:2024-07-11
# Neural Poisson Solver: 自然信号ブレンディングのための普遍的で継続的なフレームワーク

Neural Poisson Solver: A Universal and Continuous Framework for Natural Signal Blending ( http://arxiv.org/abs/2407.08457v1 )

ライセンス: Link先を確認
Delong Wu, Hao Zhu, Qi Zhang, You Li, Zhan Ma, Xun Cao, (参考訳) Inlicit Neural Representation (INR)は、視覚信号(例えば、2D画像や3Dシーン)を表現し、様々なダウンストリームアプリケーションで有望な結果を示す一般的な方法となっている。 視覚信号の媒体としての可能性を考えると、INRを利用したニューラルブレンディング法の開発は自然な進歩である。 ニューラルブレンディングは、2つのINRをマージして、両方の元の表現から情報をカプセル化する新しいINRを作成する。 直接的アプローチでは、INRレンダリングプロセスに従来の画像編集手法を適用する。 しかし、この手法はしばしば歪み、アーティファクト、色の変化をブレンドする。主な原因は、下層の画素格子の離散化と、変分問題を解くための境界条件の導入である。 この問題に対処するために,INRによって表現される視覚信号をブレンドするための,プラグアンドプレイで普遍的に適用可能なフレームワークであるNeural Poisson Solverを導入する。 我々のニューラル・ポアソン・ソルバーは連続ポアソン方程式に基づく変分問題解決手法を提供し、様々な領域で例外的な性能を示す。 具体的には、変分問題の解法過程を表現するための勾配誘導型ニューラルソルバを提案し、対象信号を精製して自然なブレンディング結果を得る。 また,ポアソン方程式に基づく損失と最適化手法を開発し,入力されたINRシーンを効果的にブレンドし,固有の構造と意味的内容を保存する。 追加の事前知識への依存の欠如により,本手法は様々なタスクカテゴリに適応しやすく,その汎用性を強調している。 総合的な実験結果は、複数の次元にまたがるアプローチの頑健さとタスクのブレンディングを検証した。

Implicit Neural Representation (INR) has become a popular method for representing visual signals (e.g., 2D images and 3D scenes), demonstrating promising results in various downstream applications. Given its potential as a medium for visual signals, exploring the development of a neural blending method that utilizes INRs is a natural progression. Neural blending involves merging two INRs to create a new INR that encapsulates information from both original representations. A direct approach involves applying traditional image editing methods to the INR rendering process. However, this method often results in blending distortions, artifacts, and color shifts, primarily due to the discretization of the underlying pixel grid and the introduction of boundary conditions for solving variational problems. To tackle this issue, we introduce the Neural Poisson Solver, a plug-and-play and universally applicable framework across different signal dimensions for blending visual signals represented by INRs. Our Neural Poisson Solver offers a variational problem-solving approach based on the continuous Poisson equation, demonstrating exceptional performance across various domains. Specifically, we propose a gradient-guided neural solver to represent the solution process of the variational problem, refining the target signal to achieve natural blending results. We also develop a Poisson equation-based loss and optimization scheme to train our solver, ensuring it effectively blends the input INR scenes while preserving their inherent structure and semantic content. The lack of dependence on additional prior knowledge makes our method easily adaptable to various task categories, highlighting its versatility. Comprehensive experimental results validate the robustness of our approach across multiple dimensions and blending tasks.
翻訳日:2024-07-12 17:29:40 公開日:2024-07-11
# 深層強化学習に基づくNR-V2Xシステムにおける情報量とエネルギー消費量の同時最適化

Joint Optimization of Age of Information and Energy Consumption in NR-V2X System based on Deep Reinforcement Learning ( http://arxiv.org/abs/2407.08458v1 )

ライセンス: Link先を確認
Shulin Song, Zheng Zhang, Qiong Wu, Qiang Fan, Pingyi Fan, (参考訳) 自律運転は次世代の最も重要な応用シナリオであり、信頼性と低遅延の車両通信を可能にする無線アクセス技術の開発が重要となる。 この問題を解決するため、3GPPは5Gニューラジオ(NR)技術に基づくV2X仕様を開発し、そこではモード2サイドリンク(SL)通信はLTE-V2Xのモード4に似ており、車両間の直接通信を可能にする。 これはLTE-V2XにおけるSL通信を補完し、NR-V2Xの性能を改善したセルラーV2X(C-V2X)の最新の進歩を示す。 しかし、NR-V2Xモード2では資源衝突が発生し、情報時代(AOI)が悪化する。 したがって、NR-V2Xと非直交多重アクセス(NOMA)技術を組み合わせることにより、この影響を軽減するために干渉キャンセル法が用いられる。 NR-V2Xでは、車両がより小さな資源予約間隔(RRI)を選択すると、高周波数伝送はAoIを減らすために鉱石エネルギーを消費する。 したがって, NR-V2X通信に基づくAoIと通信エネルギー消費を共同で検討することが重要である。 そして、このような最適化問題を定式化し、Deep Reinforcement Learning (DRL)アルゴリズムを用いて各送信車両の最適な送信RRIと送信電力を計算し、各受信車両の送電車両とAoIのエネルギー消費量を減らす。 大規模なシミュレーションにより,提案アルゴリズムの性能を実証した。

Autonomous driving may be the most important application scenario of next generation, the development of wireless access technologies enabling reliable and low-latency vehicle communication becomes crucial. To address this, 3GPP has developed Vehicle-to-Everything (V2X) specifications based on 5G New Radio (NR) technology, where Mode 2 Side-Link (SL) communication resembles Mode 4 in LTE-V2X, allowing direct communication between vehicles. This supplements SL communication in LTE-V2X and represents the latest advancement in cellular V2X (C-V2X) with improved performance of NR-V2X. However, in NR-V2X Mode 2, resource collisions still occur, and thus degrade the age of information (AOI). Therefore, a interference cancellation method is employed to mitigate this impact by combining NR-V2X with Non-Orthogonal multiple access (NOMA) technology. In NR-V2X, when vehicles select smaller resource reservation interval (RRI), higher-frequency transmissions take ore energy to reduce AoI. Hence, it is important to jointly consider AoI and communication energy consumption based on NR-V2X communication. Then, we formulate such an optimization problem and employ the Deep Reinforcement Learning (DRL) algorithm to compute the optimal transmission RRI and transmission power for each transmitting vehicle to reduce the energy consumption of each transmitting vehicle and the AoI of each receiving vehicle. Extensive simulations have demonstrated the performance of our proposed algorithm.
翻訳日:2024-07-12 17:29:40 公開日:2024-07-11
# 深部ニューラルネットワークのグラフ展開と拡張限界

Graph Expansions of Deep Neural Networks and their Universal Scaling Limits ( http://arxiv.org/abs/2407.08459v1 )

ライセンス: Link先を確認
Nicola Muca Cirone, Jad Hamdan, Cristopher Salvi, (参考訳) 本稿では,乱数行列理論からの属拡大手法を用いて,ニューラルネットワークのスケーリング限界を求める統一的な手法を提案する。 このアプローチは、ODE のブッチャー級数に類似したニューラルネットワークの新たな拡張から始まり、ファ=ア・ディ・ブルーノの公式を任意の数の合成に一般化することで得られる。 この拡張において、単項写像の役割は、辺がランダム行列に対応する有向グラフによってインデックス付けされた無作為な多重線型写像によって演じられ、これは作用素グラフと呼ばれる。 この拡張は活性化関数の効果を線形化し、各項の期待値を計算するウィックの原理を直接適用することができる。 次に、対応するグラフを曲面に埋め込み、それらのオイラー特性を計算することによって、各項への主要な寄与を決定する。 さらに、解析演算とグラフィカル演算の対応性を開発することにより、ニューラルネットワークの入力出力ジャコビアンと同様のグラフ展開を求め、その無限幅限界を相対的容易性で導出する。 特に、ジャコビアンの極限特異値分布のモーメントに対する明示的な公式が見つかる。 すると、これらの結果は、モーメント仮定を満たすエントリ、複素行列、スパース行列など、より一般的な重みを持つネットワークに対して成り立つことを示す。

We present a unified approach to obtain scaling limits of neural networks using the genus expansion technique from random matrix theory. This approach begins with a novel expansion of neural networks which is reminiscent of Butcher series for ODEs, and is obtained through a generalisation of Fa\`a di Bruno's formula to an arbitrary number of compositions. In this expansion, the role of monomials is played by random multilinear maps indexed by directed graphs whose edges correspond to random matrices, which we call operator graphs. This expansion linearises the effect of the activation functions, allowing for the direct application of Wick's principle to compute the expectation of each of its terms. We then determine the leading contribution to each term by embedding the corresponding graphs onto surfaces, and computing their Euler characteristic. Furthermore, by developing a correspondence between analytic and graphical operations, we obtain similar graph expansions for the neural tangent kernel as well as the input-output Jacobian of the original neural network, and derive their infinite-width limits with relative ease. Notably, we find explicit formulae for the moments of the limiting singular value distribution of the Jacobian. We then show that all of these results hold for networks with more general weights, such as general matrices with i.i.d. entries satisfying moment assumptions, complex matrices and sparse matrices.
翻訳日:2024-07-12 17:29:40 公開日:2024-07-11
# 半監督対象検出:CNNから変圧器への進展に関する調査

Semi-Supervised Object Detection: A Survey on Progress from CNN to Transformer ( http://arxiv.org/abs/2407.08460v1 )

ライセンス: Link先を確認
Tahira Shehzadi, Ifza, Didier Stricker, Muhammad Zeshan Afzal, (参考訳) 半教師付き学習の目覚ましい進歩は、コンピュータビジョンの分野における物体検出タスクの可能性を探るきっかけとなった。 Semi-Supervised Object Detection (SSOD)は、小さなラベル付きデータセットとより大きなラベルなしデータセットの組み合わせを活用する。 このアプローチは、しばしば高価で入手に時間がかかる大規模なラベル付きデータセットへの依存を効果的に減らす。 当初、SSODモデルはラベルのないデータを効果的に活用し、ラベルのないデータに対して生成された擬似ラベルのノイズを管理するという課題に直面した。 しかし、近年の多くの進歩はこれらの問題に対処し、SSODの性能を大幅に改善した。 本稿では,畳み込みニューラルネットワーク(CNN)からトランスフォーマーまで,SSOD方法論における27の最先端開発について概説する。 半教師付き学習のコアコンポーネントと、そのオブジェクト検出フレームワークへの統合、データ拡張技術、擬似ラベル戦略、一貫性の正則化、および敵の訓練方法などについて調べる。 さらに、様々なSSODモデルの比較分析を行い、その性能とアーキテクチャの違いを評価した。 我々は,既存の課題を克服し,物体検出のための半教師あり学習における新たな方向性を探るため,さらなる研究の関心を喚起することを目的としている。

The impressive advancements in semi-supervised learning have driven researchers to explore its potential in object detection tasks within the field of computer vision. Semi-Supervised Object Detection (SSOD) leverages a combination of a small labeled dataset and a larger, unlabeled dataset. This approach effectively reduces the dependence on large labeled datasets, which are often expensive and time-consuming to obtain. Initially, SSOD models encountered challenges in effectively leveraging unlabeled data and managing noise in generated pseudo-labels for unlabeled data. However, numerous recent advancements have addressed these issues, resulting in substantial improvements in SSOD performance. This paper presents a comprehensive review of 27 cutting-edge developments in SSOD methodologies, from Convolutional Neural Networks (CNNs) to Transformers. We delve into the core components of semi-supervised learning and its integration into object detection frameworks, covering data augmentation techniques, pseudo-labeling strategies, consistency regularization, and adversarial training methods. Furthermore, we conduct a comparative analysis of various SSOD models, evaluating their performance and architectural differences. We aim to ignite further research interest in overcoming existing challenges and exploring new directions in semi-supervised learning for object detection.
翻訳日:2024-07-12 17:29:40 公開日:2024-07-11
# 分散ディープ強化学習に基づくフェデレーション学習による車両エッジコンピューティングのためのグラディエント量子化

Distributed Deep Reinforcement Learning Based Gradient Quantization for Federated Learning Enabled Vehicle Edge Computing ( http://arxiv.org/abs/2407.08462v1 )

ライセンス: Link先を確認
Cui Zhang, Wenjun Zhang, Qiong Wu, Pingyi Fan, Qiang Fan, Jiangzhou Wang, Khaled B. Letaief, (参考訳) Federated Learning(FL)は、車両エッジコンピューティング(VEC)における車両のプライバシを、ローカルデータではなく、車両のローカルモデルの勾配を共有することによってある程度保護することができる。 車両の局所モデルの勾配は通常、車載人工知能(AI)アプリケーションにとって大きいため、そのような大きな勾配を伝達すると、ラウンド当たりの遅延が大きくなる。 グラディエント量子化は、勾配を圧縮し、量子化レベル(quantization level)と呼ばれるビット数を減らし、勾配を伝達することでFLのラウンドごとのレイテンシを低減する効果的なアプローチとして提案されている。 量子化レベルとしきい値の選択は、さらにモデルの精度とトレーニング時間に影響を与える量子化誤差を決定する。 そのため、FL有効VECのトレーニング時間と量子化誤差(QE)は、FL有効VECの2つの重要な指標となる。 FL対応VECの総トレーニング時間とQEを共同で最適化することが重要である。 しかし、時間変化のあるチャネル条件は、この問題を解決するためにより多くの課題を引き起こす。 本稿では,分散深部強化学習(DRL)に基づく量子化レベル割り当て方式を提案する。 全体トレーニング時間とQEの間の最適重み付け因子を特定し,提案手法の有効性と有効性を示す。

Federated Learning (FL) can protect the privacy of the vehicles in vehicle edge computing (VEC) to a certain extent through sharing the gradients of vehicles' local models instead of local data. The gradients of vehicles' local models are usually large for the vehicular artificial intelligence (AI) applications, thus transmitting such large gradients would cause large per-round latency. Gradient quantization has been proposed as one effective approach to reduce the per-round latency in FL enabled VEC through compressing gradients and reducing the number of bits, i.e., the quantization level, to transmit gradients. The selection of quantization level and thresholds determines the quantization error, which further affects the model accuracy and training time. To do so, the total training time and quantization error (QE) become two key metrics for the FL enabled VEC. It is critical to jointly optimize the total training time and QE for the FL enabled VEC. However, the time-varying channel condition causes more challenges to solve this problem. In this paper, we propose a distributed deep reinforcement learning (DRL)-based quantization level allocation scheme to optimize the long-term reward in terms of the total training time and QE. Extensive simulations identify the optimal weighted factors between the total training time and QE, and demonstrate the feasibility and effectiveness of the proposed scheme.
翻訳日:2024-07-12 17:29:40 公開日:2024-07-11
# Dzyaloshinskii-Moriya相互作用を持つ量子量子ビット系の磁場存在下での量子絡み合いの進化に関する研究

Investigating the evolution of quantum entanglement of a qubit-qubit system with Dzyaloshinskii-Moriya interaction in the presence of magnetic fields ( http://arxiv.org/abs/2407.08463v1 )

ライセンス: Link先を確認
Seyed Mohsen Moosavi Khansari, Fazlollah Kazemi Hasanvand, (参考訳) 本稿では、等方性XXXハイゼンベルクにおける量子量子ビット化合物系の量子エンタングルメントダイナミクスと、磁場下でのDM相互作用を伴う異方性XYZモデルについて検討する。 系の初期状態はスピンコヒーレンス状態と見なされ、この化合物系のエンタングルメントダイナミクスは、DM相互作用と磁場の影響を評価するためのエンタングルメント尺度として、負性度基準を用いて分析される。

In this paper, the quantum entanglement dynamics of a qubit qubit compound system in the isotropic XXX Heisenberg and anisotropic XYZ models with DM interaction under magnetic fields is investigated. The system's initial state is considered as a spin coherence state, and the entanglement dynamics of this compound system is analyzed using the negativity criterion as an entanglement measure to assess the impact of DM interaction and magnetic fields.
翻訳日:2024-07-12 17:29:40 公開日:2024-07-11
# TLDR: 時間的距離認識による非教師付きゴールコンディションRL

TLDR: Unsupervised Goal-Conditioned RL via Temporal Distance-Aware Representations ( http://arxiv.org/abs/2407.08464v1 )

ライセンス: Link先を確認
Junik Bae, Kwanyoung Park, Youngwoon Lee, (参考訳) 非教師なし目標条件強化学習(GCRL)は、外部の監督なしに多様なロボットスキルを開発する上で有望なパラダイムである。 しかし、既存の非教師なしのGCRL法は、GCRLの限られた探索やノイズの多い報酬のために、複雑な環境における幅広い状態をカバーするのに苦労することが多い。 これらの課題を克服するために,TemporaL Distance-Aware Representations (TLDR) を利用した新しい教師なしGCRL法を提案する。 TLDRは、探索を開始するために遠くの目標を選択し、時間的距離に基づいて固有の探索報酬と目標獲得報酬を計算する。 具体的には、我々の探索政策は、大きな時間的距離(すなわち、大きな状態空間をカバーする)を持つ状態を求め、一方ゴール条件付き政策は、目標への時間的距離(すなわち、ゴールに到達すること)を最小化するために学習する。 6つのロボット・ロコモーション環境における実験結果から,従来の教師なしGCRL法よりもはるかに優れており,多種多様な状態が得られることが示された。

Unsupervised goal-conditioned reinforcement learning (GCRL) is a promising paradigm for developing diverse robotic skills without external supervision. However, existing unsupervised GCRL methods often struggle to cover a wide range of states in complex environments due to their limited exploration and sparse or noisy rewards for GCRL. To overcome these challenges, we propose a novel unsupervised GCRL method that leverages TemporaL Distance-aware Representations (TLDR). TLDR selects faraway goals to initiate exploration and computes intrinsic exploration rewards and goal-reaching rewards, based on temporal distance. Specifically, our exploration policy seeks states with large temporal distances (i.e. covering a large state space), while the goal-conditioned policy learns to minimize the temporal distance to the goal (i.e. reaching the goal). Our experimental results in six simulated robotic locomotion environments demonstrate that our method significantly outperforms previous unsupervised GCRL methods in achieving a wide variety of states.
翻訳日:2024-07-12 17:29:40 公開日:2024-07-11
# 時空間情報に基づくビデオ時空間超解法のための残差型ConvLSTM

Global Spatial-Temporal Information-based Residual ConvLSTM for Video Space-Time Super-Resolution ( http://arxiv.org/abs/2407.08466v1 )

ライセンス: Link先を確認
Congrui Fu, Hui Yuan, Shiqi Jiang, Guanghui Zhang, Liquan Shen, Raouf Hamzaoui, (参考訳) 低フレームレート、低解像度の動画を高フレームレート、高解像度の映像に変換することで、時空ビデオの超高解像度技術は視覚的体験を高め、より効率的な情報伝達を促進することができる。 我々は、時空ビデオ超解像、すなわちGIRNetのための畳み込みニューラルネットワーク(CNN)を提案する。 高精度な特徴を生成し,性能を向上させるため,提案ネットワークでは,変形可能な畳み込みとグローバル空間時空間情報に基づく残差畳み込み長短期メモリ(convLSTM)モジュールを統合した特徴レベル時間補間モジュールを提案する。 特徴レベルの時間的補間モジュールでは、変形可能な畳み込みを利用して、異なるシーンにおけるオブジェクトの変形やスケールのばらつきに適応する。 これにより、移動物体から特徴を抽出する従来の畳み込みよりも効率的な解が得られる。 我々のネットワークは、フレーム間オフセットを決定するために、前方および後方の特徴情報を効果的に利用し、補間フレーム特徴の直接生成に繋がる。 第1のconvLSTMは、入力された特徴からグローバルな時空間情報を導出するために、第2のconvLSTMは、予め計算されたグローバルな時空間情報特徴を初期セル状態として使用する。 この第2のconvLSTMは、空間情報を保持するために残留接続を採用し、出力特性を向上する。 Vimeo90Kデータセット上での実験により,提案手法はピーク信号対雑音比(STARnet,TMNet,3DAttGANでそれぞれ1.45dB,1.14dB,0.02dB),構造的類似度指数(STARnet,TMNet,3DAtGANで0.027,0.023,0.006)において,最先端技術よりも優れていた。

By converting low-frame-rate, low-resolution videos into high-frame-rate, high-resolution ones, space-time video super-resolution techniques can enhance visual experiences and facilitate more efficient information dissemination. We propose a convolutional neural network (CNN) for space-time video super-resolution, namely GIRNet. To generate highly accurate features and thus improve performance, the proposed network integrates a feature-level temporal interpolation module with deformable convolutions and a global spatial-temporal information-based residual convolutional long short-term memory (convLSTM) module. In the feature-level temporal interpolation module, we leverage deformable convolution, which adapts to deformations and scale variations of objects across different scene locations. This presents a more efficient solution than conventional convolution for extracting features from moving objects. Our network effectively uses forward and backward feature information to determine inter-frame offsets, leading to the direct generation of interpolated frame features. In the global spatial-temporal information-based residual convLSTM module, the first convLSTM is used to derive global spatial-temporal information from the input features, and the second convLSTM uses the previously computed global spatial-temporal information feature as its initial cell state. This second convLSTM adopts residual connections to preserve spatial information, thereby enhancing the output features. Experiments on the Vimeo90K dataset show that the proposed method outperforms state-of-the-art techniques in peak signal-to-noise-ratio (by 1.45 dB, 1.14 dB, and 0.02 dB over STARnet, TMNet, and 3DAttGAN, respectively), structural similarity index(by 0.027, 0.023, and 0.006 over STARnet, TMNet, and 3DAttGAN, respectively), and visually.
翻訳日:2024-07-12 17:29:40 公開日:2024-07-11
# 3次元U-Netと文脈変換器を用いたMRI画像の脳腫瘍分離

Brain Tumor Segmentation in MRI Images with 3D U-Net and Contextual Transformer ( http://arxiv.org/abs/2407.08470v1 )

ライセンス: Link先を確認
Thien-Qua T. Nguyen, Hieu-Nghia Nguyen, Thanh-Hieu Bui, Thien B. Nguyen-Tat, Vuong M. Ngo, (参考訳) 本研究では,3D-UNetモデルとコンテキストトランスフォーマ(CoT)を併用したMRIを用いた脳腫瘍の正確な領域分割法を提案する。 アーキテクチャ拡張CoTにより、提案モデルはアーキテクチャを3次元形式に拡張し、ベースモデルとスムーズに統合し、MRIスキャンで見いだされる複雑なコンテキスト情報を活用する。 提案モデルでは,CoTから腫瘍の質量特性を同期させ,特徴抽出を相互に強化し,位置,サイズ,境界などの詳細な腫瘍の質量構造を正確に把握する。 いくつかの実験結果から,BraTS2019のDiceスコアは82.0%,81.5%,89.0%,腫瘍コアは89.0%であった。

This research presents an enhanced approach for precise segmentation of brain tumor masses in magnetic resonance imaging (MRI) using an advanced 3D-UNet model combined with a Context Transformer (CoT). By architectural expansion CoT, the proposed model extends its architecture to a 3D format, integrates it smoothly with the base model to utilize the complex contextual information found in MRI scans, emphasizing how elements rely on each other across an extended spatial range. The proposed model synchronizes tumor mass characteristics from CoT, mutually reinforcing feature extraction, facilitating the precise capture of detailed tumor mass structures, including location, size, and boundaries. Several experimental results present the outstanding segmentation performance of the proposed method in comparison to current state-of-the-art approaches, achieving Dice score of 82.0%, 81.5%, 89.0% for Enhancing Tumor, Tumor Core and Whole Tumor, respectively, on BraTS2019.
翻訳日:2024-07-12 17:29:40 公開日:2024-07-11
# 自然言語だけでは十分ではない:Verilog生成のためのマルチモーダル生成AIのベンチマーク

Natural language is not enough: Benchmarking multi-modal generative AI for Verilog generation ( http://arxiv.org/abs/2407.08473v1 )

ライセンス: Link先を確認
Kaiyan Chang, Zhirong Chen, Yunhao Zhou, Wenlong Zhu, kun wang, Haobo Xu, Cangyuan Li, Mengdi Wang, Shengwen Liang, Huawei Li, Yinhe Han, Ying Wang, (参考訳) 自然言語インタフェースは、大規模言語モデルの利用を通じて高レベルの仕様から派生したVerilog生成の自動化に大きな可能性を示しており、大きな注目を集めている。 しかし,本論文は,視覚表現が空間的複雑さを有するハードウェアアーキテクチャの設計意図に不可欠なコンテキスト情報に寄与し,自然言語のみの入力の有効性を超越する可能性を示唆している。 この前提に基づいて,視覚言語入力からのVerilog合成に適したマルチモーダル生成モデルのオープンソースベンチマークを導入し,特異モジュールと複素モジュールの両方に対処する。 さらに、効率的なユーザフレンドリなマルチモーダルクエリを容易にするために、オープンソースのビジュアルで自然言語のVerilogクエリ言語フレームワークを導入する。 Verilog生成タスクにおけるマルチモーダルハードウェア生成AIの性能を評価するため,自然言語のみに依存する一般的な手法と比較した。 本結果は,自然言語のみに基づくクエリと比較して,マルチモーダル生成したVerilogの精度が大幅に向上したことを示す。 我々は、大規模ハードウェア設計モデル時代のハードウェア設計に対する新しいアプローチを明らかにし、ハードウェア設計に対するより多様化し生産的なアプローチを育みたいと考えています。

Natural language interfaces have exhibited considerable potential in the automation of Verilog generation derived from high-level specifications through the utilization of large language models, garnering significant attention. Nevertheless, this paper elucidates that visual representations contribute essential contextual information critical to design intent for hardware architectures possessing spatial complexity, potentially surpassing the efficacy of natural-language-only inputs. Expanding upon this premise, our paper introduces an open-source benchmark for multi-modal generative models tailored for Verilog synthesis from visual-linguistic inputs, addressing both singular and complex modules. Additionally, we introduce an open-source visual and natural language Verilog query language framework to facilitate efficient and user-friendly multi-modal queries. To evaluate the performance of the proposed multi-modal hardware generative AI in Verilog generation tasks, we compare it with a popular method that relies solely on natural language. Our results demonstrate a significant accuracy improvement in the multi-modal generated Verilog compared to queries based solely on natural language. We hope to reveal a new approach to hardware design in the large-hardware-design-model era, thereby fostering a more diversified and productive approach to hardware design.
翻訳日:2024-07-12 17:29:40 公開日:2024-07-11
# DIDUP: UIプロトタイピングのための動的反復開発

DIDUP: Dynamic Iterative Development for UI Prototyping ( http://arxiv.org/abs/2407.08474v1 )

ライセンス: Link先を確認
Jenny Ma, Karthik Sreedhar, Vivian Liu, Sitong Wang, Pedro Alejandro Perez, Lydia B. Chilton, (参考訳) 大規模言語モデル(LLM)は、コードを書くのに非常に適しています。 人間とLLMのコラボレーションの特に価値のある例は、コードベースのUIプロトタイピングである。 我々は,LCMの生成するコードプロトタイピングシステムであるGPT Pilotの形式的な研究を行い,開発が始まってから変化に対する柔軟性が,障害防止や動的計画の弱点につながることを発見した。 DIDUPは、コードベースのUIプロトタイピングのためのシステムで、反復的なスパイラルモデルに従い、開発プロセス中に現れる変更やイテレーションを考慮に入れます。 本研究では,LLM生成したコードプロトタイピングシステムの3つの新しいメカニズムを提案する。(1)適応的計画,実装中に動的で変更を反映する計画,(2)コードインジェクション,(2)最小限のコードを書き込んでコードを書き直すのではなくコードインジェクション,(3)軽量な状態管理,ソースコントロールの簡易バージョン,などである。 これにより、ユーザはプロトタイプの開発とイテレーションを迅速に行うことができる。

Large language models (LLMs) are remarkably good at writing code. A particularly valuable case of human-LLM collaboration is code-based UI prototyping, a method for creating interactive prototypes that allows users to view and fully engage with a user interface. We conduct a formative study of GPT Pilot, a leading LLM-generated code-prototyping system, and find that its inflexibility towards change once development has started leads to weaknesses in failure prevention and dynamic planning; it closely resembles the linear workflow of the waterfall model. We introduce DIDUP, a system for code-based UI prototyping that follows an iterative spiral model, which takes changes and iterations that come up during the development process into account. We propose three novel mechanisms for LLM-generated code-prototyping systems: (1) adaptive planning, where plans should be dynamic and reflect changes during implementation, (2) code injection, where the system should write a minimal amount of code and inject it instead of rewriting code so users have a better mental model of the code evolution, and (3) lightweight state management, a simplified version of source control so users can quickly revert to different working states. Together, this enables users to rapidly develop and iterate on prototypes.
翻訳日:2024-07-12 17:29:40 公開日:2024-07-11
# 公共ファインチューニングデータセットの調査:建設の視点から

Investigating Public Fine-Tuning Datasets: A Complex Review of Current Practices from a Construction Perspective ( http://arxiv.org/abs/2407.08475v1 )

ライセンス: Link先を確認
Runyuan Ma, Wei Li, Fukai Shang, (参考訳) 大規模なモデルドメインの急速な発展に伴い、ファインチューニングに関する研究は大規模モデルのトレーニングプロセスにおいて、ファインチューニングが重要な部分を占めることを考えると、同時に顕著な進展が見られた。 データエンジニアリングは、データインフラストラクチャやデータ処理などを含むモデルのトレーニングプロセスにおいて、基本的な役割を果たす。 微調整中のデータも同様に、大きなモデルの基盤を形成する。 本論文は、データ構築の観点から、現在公開されている微調整データセットのパワーを取り入れ、新たな可能性を探るため、現在の微調整データセットをレビューする。 進化と分類という2つの側面から得られた公的な微調整データセットの概要を概説し,開発軌跡のグラフ化をめざした。 大規模言語モデル(LLM)の公開微調整データセットの構築手法と手法について詳述する。 この実験は前述の分類学、特に実演、比較、一般論のカテゴリーを踏襲している。 さらに,データ生成手法のカテゴリツリーを概説し,構築次元から微調整データセットの理解を深める支援を行った。 また,本分野における現在の実践の異なるデータ準備段階における構築の特徴を概観し,今後の研究の概観と情報提供をめざして概説した。 各種データモダリティを包含した微調整データセットの実践についても,本レビューで構築の観点から論じる。 この記事の終わりに向けて、我々は微調整データセットの構築と開発について、洞察と考察を行う。

With the rapid development of the large model domain, research related to fine-tuning has concurrently seen significant advancement, given that fine-tuning is a constituent part of the training process for large-scale models. Data engineering plays a fundamental role in the training process of models, which includes data infrastructure, data processing, etc. Data during fine-tuning likewise forms the base for large models. In order to embrace the power and explore new possibilities of fine-tuning datasets, this paper reviews current public fine-tuning datasets from the perspective of data construction. An overview of public fine-tuning datasets from two sides: evolution and taxonomy, is provided in this review, aiming to chart the development trajectory. Construction techniques and methods for public fine-tuning datasets of Large Language Models (LLMs), including data generation and data augmentation among others, are detailed. This elaboration follows the aforementioned taxonomy, specifically across demonstration, comparison, and generalist categories. Additionally, a category tree of data generation techniques has been abstracted in our review to assist researchers in gaining a deeper understanding of fine-tuning datasets from the construction dimension. Our review also summarizes the construction features in different data preparation phases of current practices in this field, aiming to provide a comprehensive overview and inform future research. Fine-tuning dataset practices, encompassing various data modalities, are also discussed from a construction perspective in our review. Towards the end of the article, we offer insights and considerations regarding the future construction and developments of fine-tuning datasets.
翻訳日:2024-07-12 17:29:40 公開日:2024-07-11
# VideoMamba:時空間選択空間モデル

VideoMamba: Spatio-Temporal Selective State Space Model ( http://arxiv.org/abs/2407.08476v1 )

ライセンス: Link先を確認
Jinyoung Park, Hee-Seon Kim, Kangwook Ko, Minbeom Kim, Changick Kim, (参考訳) 本稿では,ビデオ認識に特化して設計された純粋マンバアーキテクチャの新たな適応であるVideoMambaを紹介する。 2次複雑さによる高い計算コストにつながる自己保持機構に依存する変換器とは異なり、VideoMambaはより効率的な処理のためにMambaの線形複雑性と選択的なSSM機構を利用する。 提案したspatio-Temporal Forward and Backward SSMにより、ビデオ内の非逐次空間情報とシーケンシャル時間情報の複雑な関係を効果的に捉えることができる。 その結果、VideoMambaは、リソース効率だけでなく、様々なビデオ理解ベンチマークにおいて、競争性能と卓越した効率によって実証された、ビデオの長距離依存性のキャプチャにも有効である。 我々の研究は、ビデオ理解のための強力なツールとしてのVideoMambaの可能性を強調し、ビデオ分析における将来の研究のための、シンプルだが効果的なベースラインを提供する。

We introduce VideoMamba, a novel adaptation of the pure Mamba architecture, specifically designed for video recognition. Unlike transformers that rely on self-attention mechanisms leading to high computational costs by quadratic complexity, VideoMamba leverages Mamba's linear complexity and selective SSM mechanism for more efficient processing. The proposed Spatio-Temporal Forward and Backward SSM allows the model to effectively capture the complex relationship between non-sequential spatial and sequential temporal information in video. Consequently, VideoMamba is not only resource-efficient but also effective in capturing long-range dependency in videos, demonstrated by competitive performance and outstanding efficiency on a variety of video understanding benchmarks. Our work highlights the potential of VideoMamba as a powerful tool for video understanding, offering a simple yet effective baseline for future research in video analysis.
翻訳日:2024-07-12 17:29:40 公開日:2024-07-11
# キャリアスケジューリングのためのグラフニューラルネットワークのロバスト一般化

Robust Generalization of Graph Neural Networks for Carrier Scheduling ( http://arxiv.org/abs/2407.08479v1 )

ライセンス: Link先を確認
Daniel F. Perez-Ramirez, Carlos Pérez-Penichet, Nicolas Tsiftes, Dejan Kostic, Magnus Boman, Thiemo Voigt, (参考訳) バッテリフリーセンサータグ(Battery-free Sensor tag)は、標準のIoTデバイスと通信するために後方散乱技術を活用するデバイスであり、これによりネットワークのセンサー機能をスケーラブルな方法で拡張する。 通信において、センサタグは、近隣のIoTデバイスによって提供される、変調されていないキャリアに依存し、このプロビジョニングをネットワーク全体で調整するスケジュールである。 キャリアスケジューリング - エネルギー、スペクトル利用、遅延を最小限に抑えつつ、すべてのセンサタグを問うスケジュールを計算する - NP-Hard最適化の問題である。 最近の研究は、学習ベースのスケジューラを導入し、注意深く構築されたヒューリスティックで、最大60ノードのネットワークに一般化したリソース節約を実現している。 しかし、数百ノードのネットワークでは優位性が低下し、より大きなセットアップではさらに低下することがわかった。 本稿では,1000ノード(100倍のトレーニングトポロジサイズ)までのネットワークへの一般化(再学習なしで)を改善するGNNベースのスケジューラであるRobustGANTTを紹介する。 RobustGANTTは、より良い、より一貫性のある一般化を達成するだけでなく、既存のシステムよりも最大2倍少ないリソースを必要とするスケジュールを計算する。 我々のスケジューラは数百ミリ秒の平均ランタイムを示し、ネットワーク条件の変化に迅速に対応できるようにします。 我々の研究は、大規模バックスキャッターネットワークにおける資源利用を改善するだけでなく、学習ベースのスケジューリングに関する貴重な洞察も提供する。

Battery-free sensor tags are devices that leverage backscatter techniques to communicate with standard IoT devices, thereby augmenting a network's sensing capabilities in a scalable way. For communicating, a sensor tag relies on an unmodulated carrier provided by a neighboring IoT device, with a schedule coordinating this provisioning across the network. Carrier scheduling--computing schedules to interrogate all sensor tags while minimizing energy, spectrum utilization, and latency--is an NP-Hard optimization problem. Recent work introduces learning-based schedulers that achieve resource savings over a carefully-crafted heuristic, generalizing to networks of up to 60 nodes. However, we find that their advantage diminishes in networks with hundreds of nodes, and degrades further in larger setups. This paper introduces RobustGANTT, a GNN-based scheduler that improves generalization (without re-training) to networks up to 1000 nodes (100x training topology sizes). RobustGANTT not only achieves better and more consistent generalization, but also computes schedules requiring up to 2x less resources than existing systems. Our scheduler exhibits average runtimes of hundreds of milliseconds, allowing it to react fast to changing network conditions. Our work not only improves resource utilization in large-scale backscatter networks, but also offers valuable insights in learning-based scheduling.
翻訳日:2024-07-12 17:19:55 公開日:2024-07-11
# 医用画像セグメンテーション用スライスマンバ

SliceMamba for Medical Image Segmentation ( http://arxiv.org/abs/2407.08481v1 )

ライセンス: Link先を確認
Chao Fan, Hongyuan Yu, Luo Wang, Yan Huang, Liang Wang, Xibin Jia, (参考訳) マンバをベースとした医用画像セグメンテーションモデルの進歩にもかかわらず、一方向または多方向の特徴スキャン機構を用いた現在の方法は、画像内の隣り合う位置間の依存関係をうまくモデル化することができず、局所的な特徴の効果的なモデリングを妨げている。 しかし、病変や組織構造について重要な情報を提供するため、局所的な特徴は医用画像のセグメンテーションに不可欠である。 この制限に対処するために,SliceMambaという,局所的に感度の高い純粋なMamba医用画像分割モデルを提案する。 提案したSliceMambaには、双方向特徴分割を行うための効率的な双方向スライススキャンモジュール(BSS)が含まれており、異なる特徴に対して様々な走査機構を採用している。 これにより、空間的に隣接した特徴が走査シーケンスの近接性を維持することができ、セグメンテーション性能が向上する。 皮膚病変およびポリプセグメンテーションデータセットの広範囲な実験により,本法の有効性が検証された。

Despite the progress made in Mamba-based medical image segmentation models, current methods utilizing unidirectional or multi-directional feature scanning mechanisms fail to well model dependencies between neighboring positions in the image, hindering the effective modeling of local features. However, local features are crucial for medical image segmentation as they provide vital information about lesions and tissue structures. To address this limitation, we propose a simple yet effective method named SliceMamba, a locally sensitive pure Mamba medical image segmentation model. The proposed SliceMamba includes an efffcient Bidirectional Slice Scan module (BSS), which performs bidirectional feature segmentation while employing varied scanning mechanisms for distinct features. This ensures that spatially adjacent features maintain proximity in the scanning sequence, thereby enhancing segmentation performance. Extensive experiments on skin lesion and polyp segmentation datasets validate the effectiveness of our method.
翻訳日:2024-07-12 17:19:55 公開日:2024-07-11
# 人体の3次元モデルを用いた体と指のアニメーション骨格関節の学習

Learning Localization of Body and Finger Animation Skeleton Joints on Three-Dimensional Models of Human Bodies ( http://arxiv.org/abs/2407.08484v1 )

ライセンス: Link先を確認
Stefan Novaković, Vladimir Risojević, (参考訳) 三次元メッシュ(3D)と点雲の解析を必要とする様々な問題を解決するための現代のアプローチでは、点座標や正規ベクトル、頂点接続情報といった3Dデータを直接処理するディープラーニングアルゴリズムが採用されている。 本研究は,人体の3次元モデル内での人体と指のアニメーションの骨格関節の位置決め問題に対する,そのような解決法を提案する。 注記された実際の人間のスキャンが不足しているため、私たちは、それらの形状を変えてパラメーターをポーズしながら、合成サンプルを生成することに頼っている。 最先端手法と同様に,入力点の凸結合として各関節位置を計算する。 点座標のリストと通常のベクトル推定値のみを入力として、動的グラフ畳み込みニューラルネットワークを用いて凸結合の係数を予測する。 本手法を最先端技術と比較することにより, より単純な構造, 特に指関節において, より優れた結果が得られることを示す。 私たちのソリューションではプリ計算機能が少ないため、処理時間の短縮も可能です。

Contemporary approaches to solving various problems that require analyzing three-dimensional (3D) meshes and point clouds have adopted the use of deep learning algorithms that directly process 3D data such as point coordinates, normal vectors and vertex connectivity information. Our work proposes one such solution to the problem of positioning body and finger animation skeleton joints within 3D models of human bodies. Due to scarcity of annotated real human scans, we resort to generating synthetic samples while varying their shape and pose parameters. Similarly to the state-of-the-art approach, our method computes each joint location as a convex combination of input points. Given only a list of point coordinates and normal vector estimates as input, a dynamic graph convolutional neural network is used to predict the coefficients of the convex combinations. By comparing our method with the state-of-the-art, we show that it is possible to achieve significantly better results with a simpler architecture, especially for finger joints. Since our solution requires fewer precomputed features, it also allows for shorter processing times.
翻訳日:2024-07-12 17:19:55 公開日:2024-07-11
# Lynx: オープンソースの幻覚評価モデル

Lynx: An Open Source Hallucination Evaluation Model ( http://arxiv.org/abs/2407.08488v1 )

ライセンス: Link先を確認
Selvan Sunitha Ravi, Bartosz Mielczarek, Anand Kannappan, Douwe Kiela, Rebecca Qian, (参考訳) Retrieval Augmented Generation (RAG)技術は、Large Language Models (LLM)における幻覚を緩和することを目的としている。 しかし、LLMは検索された文脈に反する情報を生成することができる。 我々は,現実の幻覚に挑戦するシナリオについて,高度な推論が可能な SOTA 幻覚検出 LLM であるLYNX を紹介する。 LYNXを評価するために,様々な現実世界のドメインから得られた15kサンプルからなる総合幻覚評価ベンチマークHaluBenchを提案する。 実験の結果, LYNX は GPT-4o, Claude-3-Sonnet, およびHaluBench 上でのオープンソース LLM-as-a-judge モデルより優れていた。 LYNX、HaluBench、およびパブリックアクセスのための評価コードをリリースする。

Retrieval Augmented Generation (RAG) techniques aim to mitigate hallucinations in Large Language Models (LLMs). However, LLMs can still produce information that is unsupported or contradictory to the retrieved contexts. We introduce LYNX, a SOTA hallucination detection LLM that is capable of advanced reasoning on challenging real-world hallucination scenarios. To evaluate LYNX, we present HaluBench, a comprehensive hallucination evaluation benchmark, consisting of 15k samples sourced from various real-world domains. Our experiment results show that LYNX outperforms GPT-4o, Claude-3-Sonnet, and closed and open-source LLM-as-a-judge models on HaluBench. We release LYNX, HaluBench and our evaluation code for public access.
翻訳日:2024-07-12 17:19:55 公開日:2024-07-11
# Axesへの投影ポイント:Point-Axis表現によるオブジェクト指向オブジェクト検出

Projecting Points to Axes: Oriented Object Detection via Point-Axis Representation ( http://arxiv.org/abs/2407.08489v1 )

ライセンス: Link先を確認
Zeyang Zhao, Qilong Xue, Yuhang He, Yifan Bai, Xing Wei, Yihong Gong, (参考訳) 本稿では、オブジェクト指向物体検出のための点軸表現を紹介し、その柔軟性と幾何学的直感性を2つの重要な要素である点と軸で強調する。 1) 点は物体の空間的範囲と輪郭を規定し, 詳細な形状記述を提供する。 2) 軸は物体の主方向を規定し, 正確な検出に不可欠な配向手段を提供する。 点軸表現は位置と回転を分離し、伝統的な境界ボックスベースのアプローチでよく発生する損失不連続問題に対処する。 付加アノテーションを導入することなく効果的に最適化するために, 点集合学習を監督する最大射影損失と, 頑健な軸表現学習のための軸方向損失を提案する。 さらに、この表現を活用して、DTRフレームワークをシームレスに統合し、正確な点軸予測とエンドツーエンド検出を行う。 実験によりオブジェクト指向物体検出タスクの性能が大幅に向上した。

This paper introduces the point-axis representation for oriented object detection, emphasizing its flexibility and geometrically intuitive nature with two key components: points and axes. 1) Points delineate the spatial extent and contours of objects, providing detailed shape descriptions. 2) Axes define the primary directionalities of objects, providing essential orientation cues crucial for precise detection. The point-axis representation decouples location and rotation, addressing the loss discontinuity issues commonly encountered in traditional bounding box-based approaches. For effective optimization without introducing additional annotations, we propose the max-projection loss to supervise point set learning and the cross-axis loss for robust axis representation learning. Further, leveraging this representation, we present the Oriented DETR model, seamlessly integrating the DETR framework for precise point-axis prediction and end-to-end detection. Experimental results demonstrate significant performance improvements in oriented object detection tasks.
翻訳日:2024-07-12 17:19:55 公開日:2024-07-11
# 多変量根-n-一貫性平滑化パラメータフリーマッチング推定器と逆密度重み付き予測推定器

Multivariate root-n-consistent smoothing parameter free matching estimators and estimators of inverse density weighted expectations ( http://arxiv.org/abs/2407.08494v1 )

ライセンス: Link先を確認
Hajo Holzmann, Alexander Meister, (参考訳) 多変量密度の逆で重み付けされた値や、等しく、多変量回帰器を持つ回帰関数のルベーグ積分は、平均処理効果の推定、ランダム回帰モデルにおける非パラメトリック推定器、バークソン誤差不変変数モデルにおける非畳み込み推定器など、様々な応用領域で発生する。 頻繁に使用される最も近い隣人と一致する推定器は、複数の次元におけるバイアス問題に悩まされる。 K^{\text{th}}$-order Voronoi tessellation の各セルに十分に大きい$K$ の多項式最小二乗を用いて、未知回帰関数上の穏やかな滑らかさ仮定の下で、余変数の未知密度に関する滑らかさ条件のないパラメトリック $\sqrt n $-rate に再び収束する、最も近い近傍と一致する推定子の新規な修正を開発する。 我々は、マッチング推定器のバイアスを補正する競合する手法とは対照的に、推定器は非パラメトリック関数推定器を含まず、特にサンプルサイズ依存の平滑化パラメータに頼らないことを強調する。 情報理論の議論から導かれる適切な下界で上界を補足すると、回帰関数の滑らかさがパラメトリックレートを達成するのに本当に必要であることが分かる。 シミュレーションは提案手法の実現可能性を示す。

Expected values weighted by the inverse of a multivariate density or, equivalently, Lebesgue integrals of regression functions with multivariate regressors occur in various areas of applications, including estimating average treatment effects, nonparametric estimators in random coefficient regression models or deconvolution estimators in Berkson errors-in-variables models. The frequently used nearest-neighbor and matching estimators suffer from bias problems in multiple dimensions. By using polynomial least squares fits on each cell of the $K^{\text{th}}$-order Voronoi tessellation for sufficiently large $K$, we develop novel modifications of nearest-neighbor and matching estimators which again converge at the parametric $\sqrt n $-rate under mild smoothness assumptions on the unknown regression function and without any smoothness conditions on the unknown density of the covariates. We stress that in contrast to competing methods for correcting for the bias of matching estimators, our estimators do not involve nonparametric function estimators and in particular do not rely on sample-size dependent smoothing parameters. We complement the upper bounds with appropriate lower bounds derived from information-theoretic arguments, which show that some smoothness of the regression function is indeed required to achieve the parametric rate. Simulations illustrate the practical feasibility of the proposed methods.
翻訳日:2024-07-12 17:19:55 公開日:2024-07-11
# 2024年欧州議会議員選挙に関する事例研究

Investigating LLMs as Voting Assistants via Contextual Augmentation: A Case Study on the European Parliament Elections 2024 ( http://arxiv.org/abs/2407.08495v1 )

ライセンス: Link先を確認
Ilias Chalkidis, (参考訳) 命令に精通した大規模言語モデルは、前例のない自然言語理解能力を示す。 最近の研究は、LLMの政治的偏見と政治的推論能力を探究している。 2024年の欧州議会議員選挙では、LLMがVoting Advice Applications (VAA)として利用できるかどうかを調査している。 我々は、MISTRALとMIXTRALモデルを評価し、最新の「EUとI」投票支援アンケートに基づいて、政党の姿勢を予測する際の精度を評価する。 さらに、Web検索に頼って入力コンテキストをRAG(Retrieval-Augmented Generation)によって拡張し、モデルの内部メモリから関連コンテンツを再収集することを目的とした、段階的会話を用いた自己回帰(Self-Reflection)により、モデルの性能を改善する方法を検討する。 その結果,MIXTRALは平均82%の精度で精度が高いことがわかった。 入力コンテキストを専門家による情報で拡張することで、近似が大幅に向上する可能性がある。 自動化アプローチは依然としてオープンな課題だ。

Instruction-finetuned Large Language Models exhibit unprecedented Natural Language Understanding capabilities. Recent work has been exploring political biases and political reasoning capabilities in LLMs, mainly scoped in the US context. In light of the recent 2024 European Parliament elections, we are investigating if LLMs can be used as Voting Advice Applications (VAAs). We audit MISTRAL and MIXTRAL models and evaluate their accuracy in predicting the stance of political parties based on the latest "EU and I" voting assistance questionnaire. Furthermore, we explore alternatives to improve models' performance by augmenting the input context via Retrieval-Augmented Generation (RAG) relying on web search, and Self-Reflection using staged conversations that aim to re-collect relevant content from the model's internal memory. We find that MIXTRAL is highly accurate with an 82% accuracy on average. Augmenting the input context with expert-curated information can lead to a significant boost of approx. 9%, which remains an open challenge for automated approaches.
翻訳日:2024-07-12 17:19:55 公開日:2024-07-11
# CE-QArg:量的双極性論証フレームワークの非現実的説明(技術報告)

CE-QArg: Counterfactual Explanations for Quantitative Bipolar Argumentation Frameworks (Technical Report) ( http://arxiv.org/abs/2407.08497v1 )

ライセンス: Link先を確認
Xiang Yin, Nico Potyka, Francesca Toni, (参考訳) 量的双極性論証フレームワーク(QBAF)では、議論の強みを理解することへの関心が高まっている。 既存の研究の多くは、重要なスコアを他の議論に割り当てることによって議論の強みを説明する帰属的手法に焦点を当てているが、現在の強みを望ましいものに変える方法を説明できない。 この問題を解決するために,QBAFの事実的説明を紹介する。 本稿では,問題変種を議論し,定量的双極性調停フレームワーク(CE-QArg)のための対実的説明法という反復的アルゴリズムを提案する。 CE-QArgは2つのコアモジュール(極性と優先度)に基づいて有効かつ費用効果の高い反実的説明を特定でき、各引数の更新方向と大きさをそれぞれ決定できる。 本稿では, CE-QArg をランダムに生成した QBAF 上で実証的に評価する。

There is a growing interest in understanding arguments' strength in Quantitative Bipolar Argumentation Frameworks (QBAFs). Most existing studies focus on attribution-based methods that explain an argument's strength by assigning importance scores to other arguments but fail to explain how to change the current strength to a desired one. To solve this issue, we introduce counterfactual explanations for QBAFs. We discuss problem variants and propose an iterative algorithm named Counterfactual Explanations for Quantitative bipolar Argumentation frameworks (CE-QArg). CE-QArg can identify valid and cost-effective counterfactual explanations based on two core modules, polarity and priority, which help determine the updating direction and magnitude for each argument, respectively. We discuss some formal properties of our counterfactual explanations and empirically evaluate CE-QArg on randomly generated QBAFs.
翻訳日:2024-07-12 17:19:55 公開日:2024-07-11
# ERD:弱空間とハイブリッド非凸正則化に基づく指数レチネックス分解とその応用

ERD: Exponential Retinex decomposition based on weak space and hybrid nonconvex regularization and its denoising application ( http://arxiv.org/abs/2407.08498v1 )

ライセンス: Link先を確認
Wenjing Lu, Liang Wu, Liming Tang, Zhuang Fang, (参考訳) Retinex理論は、画像を照明と反射成分の産物としてモデル化し、画像の強調、セグメンテーション、色復元に広く利用されている。 しかし、Retinexノイズ画像モデリングにおいて乗算演算と加算演算の両方が組み込まれているため、付加雑音除去にはほとんど使われていない。 本稿では,ハイブリッド非凸正則化と弱空間発振モデルに基づく指数関数的Retinex分解モデルを提案する。 提案モデルは,反射成分と照明成分の正則化のために,非凸一階全変動(TV)と非凸二階テレビを用い,残留成分を測定するために弱い$H^{-1}$ノルムを用いる。 異なる正規化器を利用することで、提案モデルは画像を反射、照明、ノイズ成分に効果的に分解する。 提案手法を解くために,adMM法とMajorize-Minimization (MM)アルゴリズムを組み合わせた交互方向乗算法(ADMM)を開発した。 さらに,アルゴリズムの収束特性の詳細な証明を行う。 数値実験により提案したモデルとアルゴリズムの両方が検証される。 複数の最先端デノーミングモデルと比較して、提案モデルはピーク信号-雑音比(PSNR)と平均構造類似度(MSSIM)において優れた性能を示す。

The Retinex theory models the image as a product of illumination and reflection components, which has received extensive attention and is widely used in image enhancement, segmentation and color restoration. However, it has been rarely used in additive noise removal due to the inclusion of both multiplication and addition operations in the Retinex noisy image modeling. In this paper, we propose an exponential Retinex decomposition model based on hybrid non-convex regularization and weak space oscillation-modeling for image denoising. The proposed model utilizes non-convex first-order total variation (TV) and non-convex second-order TV to regularize the reflection component and the illumination component, respectively, and employs weak $H^{-1}$ norm to measure the residual component. By utilizing different regularizers, the proposed model effectively decomposes the image into reflection, illumination, and noise components. An alternating direction multipliers method (ADMM) combined with the Majorize-Minimization (MM) algorithm is developed to solve the proposed model. Furthermore, we provide a detailed proof of the convergence property of the algorithm. Numerical experiments validate both the proposed model and algorithm. Compared with several state-of-the-art denoising models, the proposed model exhibits superior performance in terms of peak signal-to-noise ratio (PSNR) and mean structural similarity (MSSIM).
翻訳日:2024-07-12 17:19:55 公開日:2024-07-11
# 連続時間動的グラフモードのための潜時拡散に基づくデータ拡張

Latent Conditional Diffusion-based Data Augmentation for Continuous-Time Dynamic Graph Mode ( http://arxiv.org/abs/2407.08500v1 )

ライセンス: Link先を確認
Yuxing Tian, Yiyan Qi, Aiwen Jiang, Qi Huang, Jian Guo, (参考訳) 連続時間動的グラフ(CTDG)は、実世界の関係の進化を正確にモデル化し、学術や産業における動的グラフ学習への関心を高めている。 しかし、既存のCTDGモデルは、ノイズと限られた歴史的データに起因する課題に直面している。 グラフデータ拡張(GDA)は重要なソリューションとして現れるが、現在のアプローチは静的グラフに重点を置いており、CTDGに固有のダイナミックスに効果的に取り組むのに苦労している。 さらに、これらの手法はパラメータチューニングにかなりの専門知識を必要とすることが多く、拡張効果の理論的保証が欠如している。 このような問題に対処するために,CTDGに適した新しい潜伏拡散型GDA法であるCondaを提案する。 Condaは、変分オートエンコーダ(VAE)と条件拡散モデルを組み合わせたサンドイッチのようなアーキテクチャを特徴としている。 事前学習によってグラフ全体に訓練された従来の拡散モデルとは異なり、コンダはトレーニングのためにターゲットノードの歴史的隣接配列の埋め込みを必要とするため、よりターゲット拡大が容易である。 我々はCTDGモデルにCondaを統合し、パフォーマンスを最適化するための交互トレーニング戦略を採用する。 広範に使用されている6つの実世界のデータセットに対する大規模な実験は、特に履歴データに制限のあるシナリオにおいて、我々のアプローチの一貫性のあるパフォーマンス改善を示す。

Continuous-Time Dynamic Graph (CTDG) precisely models evolving real-world relationships, drawing heightened interest in dynamic graph learning across academia and industry. However, existing CTDG models encounter challenges stemming from noise and limited historical data. Graph Data Augmentation (GDA) emerges as a critical solution, yet current approaches primarily focus on static graphs and struggle to effectively address the dynamics inherent in CTDGs. Moreover, these methods often demand substantial domain expertise for parameter tuning and lack theoretical guarantees for augmentation efficacy. To address these issues, we propose Conda, a novel latent diffusion-based GDA method tailored for CTDGs. Conda features a sandwich-like architecture, incorporating a Variational Auto-Encoder (VAE) and a conditional diffusion model, aimed at generating enhanced historical neighbor embeddings for target nodes. Unlike conventional diffusion models trained on entire graphs via pre-training, Conda requires historical neighbor sequence embeddings of target nodes for training, thus facilitating more targeted augmentation. We integrate Conda into the CTDG model and adopt an alternating training strategy to optimize performance. Extensive experimentation across six widely used real-world datasets showcases the consistent performance improvement of our approach, particularly in scenarios with limited historical data.
翻訳日:2024-07-12 17:19:55 公開日:2024-07-11
# 自己監督型遠隔生理計測のためのブートストラップ視覚言語モデル

Bootstrapping Vision-language Models for Self-supervised Remote Physiological Measurement ( http://arxiv.org/abs/2407.08507v1 )

ライセンス: Link先を確認
Zijie Yue, Miaojing Shi, Hanli Wang, Shuai Ding, Qijun Chen, Shanlin Yang, (参考訳) 顔画像に基づく遠隔生理計測は、ヒトのバイタルサイン(心拍数、呼吸頻度など)を非接触で検出するための有望な研究分野である。 従来のアプローチは主に教師付き学習であり、顔ビデオの広範な収集と同期的に記録された光胸腺造影(PPG)信号が必要である。 自己教師型学習は近年注目されているが, 基礎的真偽のPSG信号が欠如しているため, 性能は限られている。 本稿では,一般的な視覚言語モデル(VLM)を遠隔生理計測タスクに統合する,新たな自己教師型フレームワークを提案する。 顔の映像が与えられたとき、まず正負のサンプルをrPPG信号の周波数で増強する。 次に、正と負のサンプルから対照的な時空間マップを慎重に作成し、信号周波数の相対比を記述するための適切なテキストプロンプトを設計することで、周波数指向の視覚テキストペア生成手法を提案する。 事前訓練されたVLMを用いて、これらの生成した視覚テキストペアの特徴を抽出し、その後のrPPG信号を推定する。 本稿では,テキスト誘導型視覚地図再構成タスク,視覚テキストコントラスト学習タスク,周波数コントラスト・ランキングタスクなど,VLMを最適化するための生成的・コントラスト学習機構の開発を行う。 全体として,本手法は視覚・テキストモダリティにおける周波数関連知識の消化・調整に初めてVLMを適用した手法である。 4つのベンチマークデータセットの大規模な実験により、最先端の自己管理手法を著しく上回っていることが示された。

Facial video-based remote physiological measurement is a promising research area for detecting human vital signs (e.g., heart rate, respiration frequency) in a non-contact way. Conventional approaches are mostly supervised learning, requiring extensive collections of facial videos and synchronously recorded photoplethysmography (PPG) signals. To tackle it, self-supervised learning has recently gained attentions; due to the lack of ground truth PPG signals, its performance is however limited. In this paper, we propose a novel self-supervised framework that successfully integrates the popular vision-language models (VLMs) into the remote physiological measurement task. Given a facial video, we first augment its positive and negative video samples with varying rPPG signal frequencies. Next, we introduce a frequency-oriented vision-text pair generation method by carefully creating contrastive spatio-temporal maps from positive and negative samples and designing proper text prompts to describe their relative ratios of signal frequencies. A pre-trained VLM is employed to extract features for these formed vision-text pairs and estimate rPPG signals thereafter. We develop a series of generative and contrastive learning mechanisms to optimize the VLM, including the text-guided visual map reconstruction task, the vision-text contrastive learning task, and the frequency contrastive and ranking task. Overall, our method for the first time adapts VLMs to digest and align the frequency-related knowledge in vision and text modalities. Extensive experiments on four benchmark datasets demonstrate that it significantly outperforms state of the art self-supervised methods.
翻訳日:2024-07-12 17:19:55 公開日:2024-07-11
# リモートセンシング画像復元への応用

Haar Nuclear Norms with Applications to Remote Sensing Imagery Restoration ( http://arxiv.org/abs/2407.08509v1 )

ライセンス: Link先を確認
Shuang Xu, Chang Yu, Jiangjun Peng, Xiangyong Cao, (参考訳) リモートセンシング画像復元は、画像内の欠落した領域や破損した領域を再構築することを目的としている。 これまで、低ランクモデルがこの分野で大きな関心を集めてきた。 本稿では,Har Nuclear norm (HNN) という,高効率かつ効率的なリモートセンシング画像復元のための新しい低ランク正規化用語を提案する。 2次元前方スライスワイズHaar離散ウェーブレット変換から導出されるウェーブレット係数の低ランク特性を利用して、分離された粗粒構造と画像中の微細なテクスチャを効果的にモデル化する。 ハイパースペクトル像の着色, マルチテンポラル画像雲の除去, ハイパースペクトル像の脱色実験により, HNNの可能性が明らかとなった。 典型的には、HNNは1-4dBの性能向上と10-28xの高速化を実現している。

Remote sensing image restoration aims to reconstruct missing or corrupted areas within images. To date, low-rank based models have garnered significant interest in this field. This paper proposes a novel low-rank regularization term, named the Haar nuclear norm (HNN), for efficient and effective remote sensing image restoration. It leverages the low-rank properties of wavelet coefficients derived from the 2-D frontal slice-wise Haar discrete wavelet transform, effectively modeling the low-rank prior for separated coarse-grained structure and fine-grained textures in the image. Experimental evaluations conducted on hyperspectral image inpainting, multi-temporal image cloud removal, and hyperspectral image denoising have revealed the HNN's potential. Typically, HNN achieves a performance improvement of 1-4 dB and a speedup of 10-28x compared to some state-of-the-art methods (e.g., tensor correlated total variation, and fully-connected tensor network) for inpainting tasks.
翻訳日:2024-07-12 17:19:55 公開日:2024-07-11
# スティリスティックアイコン発生のための微調整安定拡散XL:カプセルサイズの比較

Fine-Tuning Stable Diffusion XL for Stylistic Icon Generation: A Comparison of Caption Size ( http://arxiv.org/abs/2407.08513v1 )

ライセンス: Link先を確認
Youssef Sultan, Jiangqin Ma, Yu-Ying Liao, (参考訳) 本稿では,安定拡散XLの様々な微調整方法を示す。これには,商業的な2Dアイコントレーニングセットのスタイルで画像を生成するために,各画像に対する推論ステップとキャプションのカスタマイズが含まれる。 また、特に商業利用環境において「高品質」が何であるかを適切に定義することがいかに重要であるかを示します。 生成型AIモデルは広く受け入れられ、利用され続けているため、さまざまなアプリケーションに対してそれらを最適化し、評価するさまざまな方法が出現する。 具体的には、Stable Diffusion XLやDALL-E 3のようなテキスト・ツー・イメージモデルでは、特定のスタイルに従って高品質なアイコンを効果的に生成するために、異なる評価プラクティスが必要である。 特定のスタイルに基づいて生成される画像の中には、FIDスコアが低いものもあるが、ラスタライズされたアイコンであっても、これが絶対ではないことを示す。 FIDスコアは生成された画像とトレーニングセット全体の類似性を反映するが、CLIPスコアは生成された画像とテキスト記述とのアライメントを測定する。 CLIPスコアはアイコンの品質を損なう結果となるのに対し、FIDスコアはアイコンで最も重要なピクセル差の少数派など、重要な側面を欠いていることを示す。 CLIPモデルの"類似性"に対する理解は、独自のトレーニングデータによって形作られています。 本研究は,高品質な商用アイコンを生成する際に,専門的な評価指標と微調整アプローチの必要性を強調し,プロフェッショナルなデザインコンテキストにおけるテキスト・ツー・イメージ・モデルのより効果的かつ適切な適用につながる可能性があることを示唆する。

In this paper, we show different fine-tuning methods for Stable Diffusion XL; this includes inference steps, and caption customization for each image to align with generating images in the style of a commercial 2D icon training set. We also show how important it is to properly define what "high-quality" really is especially for a commercial-use environment. As generative AI models continue to gain widespread acceptance and usage, there emerge many different ways to optimize and evaluate them for various applications. Specifically text-to-image models, such as Stable Diffusion XL and DALL-E 3 require distinct evaluation practices to effectively generate high-quality icons according to a specific style. Although some images that are generated based on a certain style may have a lower FID score (better), we show how this is not absolute in and of itself even for rasterized icons. While FID scores reflect the similarity of generated images to the overall training set, CLIP scores measure the alignment between generated images and their textual descriptions. We show how FID scores miss significant aspects, such as the minority of pixel differences that matter most in an icon, while CLIP scores result in misjudging the quality of icons. The CLIP model's understanding of "similarity" is shaped by its own training data; which does not account for feature variation in our style of choice. Our findings highlight the need for specialized evaluation metrics and fine-tuning approaches when generating high-quality commercial icons, potentially leading to more effective and tailored applications of text-to-image models in professional design contexts.
翻訳日:2024-07-12 17:19:55 公開日:2024-07-11
# 顔認識システムに対する敵攻撃の脅威とアクセシビリティの再考

Rethinking the Threat and Accessibility of Adversarial Attacks against Face Recognition Systems ( http://arxiv.org/abs/2407.08514v1 )

ライセンス: Link先を確認
Yuxin Cao, Yumeng Zhu, Derui Wang, Sheng Wen, Minhui Xue, Jin Lu, Hao Ge, (参考訳) 顔認識パイプラインは、信頼、公平、責任あるAIアプリケーションにおける様々なミッションクリティカルなシステムに広くデプロイされている。 しかし、敵攻撃の出現は認識パイプライン全体のセキュリティを脅かしている。 デジタルと物理の両方で敵の例を作るための攻撃方法が多数提案されているにもかかわらず、異なる攻撃の実際の脅威レベルを評価し、顔認識システムに直面する重要なリスクについて有用な洞察を得ることは容易ではない。 従来のアタックは、インセプティビリティを摂動を盗み続けるための最も重要な指標と見なしていますが、業界の専門家は異なる意見を持っているかもしれません。 本稿では,産業的観点からの敵攻撃による脅威と,顔認識の応用について検討する。 この分野における高度な攻撃とは対照的に,実世界におけるブラックボックス顔認識パイプラインに対して,AdvColorという,効果的かつ容易に起動可能な物理的敵攻撃を提案する。 AdvColorは、人間の顔のプリント写真を直接システムに供給することで、認識パイプラインのモデルを騙す。 実験の結果, 物理的AdvColor例では, 抗スプーフィングモデルに対して96%以上, 顔認識パイプラインに対して88%以上の攻撃成功率が得られることがわかった。 また,AdvColorを含む敵攻撃の脅威に関する調査を行い,敵攻撃の異なる形態のマシンと人間による脅威レベルのギャップを理解する。 調査の結果は、故意に発射された非知覚的な攻撃と比較して、知覚可能だがアクセス可能な攻撃は、現実世界の顔認識の商業システムに致命的な脅威をもたらすことを驚くほど示唆している。

Face recognition pipelines have been widely deployed in various mission-critical systems in trust, equitable and responsible AI applications. However, the emergence of adversarial attacks has threatened the security of the entire recognition pipeline. Despite the sheer number of attack methods proposed for crafting adversarial examples in both digital and physical forms, it is never an easy task to assess the real threat level of different attacks and obtain useful insight into the key risks confronted by face recognition systems. Traditional attacks view imperceptibility as the most important measurement to keep perturbations stealthy, while we suspect that industry professionals may possess a different opinion. In this paper, we delve into measuring the threat brought about by adversarial attacks from the perspectives of the industry and the applications of face recognition. In contrast to widely studied sophisticated attacks in the field, we propose an effective yet easy-to-launch physical adversarial attack, named AdvColor, against black-box face recognition pipelines in the physical world. AdvColor fools models in the recognition pipeline via directly supplying printed photos of human faces to the system under adversarial illuminations. Experimental results show that physical AdvColor examples can achieve a fooling rate of more than 96% against the anti-spoofing model and an overall attack success rate of 88% against the face recognition pipeline. We also conduct a survey on the threats of prevailing adversarial attacks, including AdvColor, to understand the gap between the machine-measured and human-assessed threat levels of different forms of adversarial attacks. The survey results surprisingly indicate that, compared to deliberately launched imperceptible attacks, perceptible but accessible attacks pose more lethal threats to real-world commercial systems of face recognition.
翻訳日:2024-07-12 17:19:55 公開日:2024-07-11
# マルチモーダル顔画像テキストデータセット1500万

15M Multimodal Facial Image-Text Dataset ( http://arxiv.org/abs/2407.08515v1 )

ライセンス: Link先を確認
Dawei Dai, YuTang Li, YingGe Liu, Mingming Jia, Zhang YuanHui, Guoyin Wang, (参考訳) 現在、画像テキスト駆動型マルチモーダルディープラーニングモデルは、多くの分野でその顕著な可能性を実証している。 実際には、顔画像を中心としたタスクは幅広い応用可能性を持っている。 本稿では,顔画像の大規模・多様・高品質なデータセットである「textbf{FaceCaption-15M}」について,その自然言語記述(顔画像からテキストへ)を伴って述べる。 このデータセットは、顔中心タスクの研究を容易にすることを目的としている。 FaceCaption-15Mは、1500万対以上の顔画像と、それに対応する顔の特徴の自然言語記述で構成されており、これまでで最大の顔画像キャプチャデータセットとなっている。 画像品質, テキストの自然性, テキストの複雑さ, テキスト画像の関連性を総合的に分析し, FaceCaption-15Mの優位性を実証した。 FaceCaption-15Mの有効性を検証するために,顔画像と対応する字幕を特徴空間で整列させるために,まず顔画像前訓練モデル(FLIP,CLIPと類似)を訓練した。 その後、画像エンコーダとテキストエンコーダを併用し、線形層のみを微調整することで、FLIPベースのモデルでは、2つの課題のある顔中心タスクに対して最先端の結果が得られた。 目的は、FaceCaption-15Mデータセットの公開を通じて、顔関連タスクの研究を促進することである。 すべてのデータ、コード、モデルは公開されています。 https://huggingface.co/datasets/OpenFace-CQUPT/FaceCaption-15M

Currently, image-text-driven multi-modal deep learning models have demonstrated their outstanding potential in many fields. In practice, tasks centered around facial images have broad application prospects. This paper presents \textbf{FaceCaption-15M}, a large-scale, diverse, and high-quality dataset of facial images accompanied by their natural language descriptions (facial image-to-text). This dataset aims to facilitate a study on face-centered tasks. FaceCaption-15M comprises over 15 million pairs of facial images and their corresponding natural language descriptions of facial features, making it the largest facial image-caption dataset to date. We conducted a comprehensive analysis of image quality, text naturalness, text complexity, and text-image relevance to demonstrate the superiority of FaceCaption-15M. To validate the effectiveness of FaceCaption-15M, we first trained a facial language-image pre-training model (FLIP, similar to CLIP) to align facial image with its corresponding captions in feature space. Subsequently, using both image and text encoders and fine-tuning only the linear layer, our FLIP-based models achieved state-of-the-art results on two challenging face-centered tasks. The purpose is to promote research in the field of face-related tasks through the availability of the proposed FaceCaption-15M dataset. All data, codes, and models are publicly available. https://huggingface.co/datasets/OpenFace-CQUPT/FaceCaption-15M
翻訳日:2024-07-12 17:10:08 公開日:2024-07-11
# 収束パラダイム: LLMを利用した自律エージェントにおけるシンボリックAIとコネクショナリズムAIの相乗効果

Converging Paradigms: The Synergy of Symbolic and Connectionist AI in LLM-Empowered Autonomous Agents ( http://arxiv.org/abs/2407.08516v1 )

ライセンス: Link先を確認
Haoyi Xiong, Zhiyuan Wang, Xuhong Li, Jiang Bian, Zeke Xie, Shahid Mumtaz, Laura E. Barnes, (参考訳) 本稿では,コネクショナリズムと象徴的人工知能(AI)の融合について,歴史的議論から現代的進歩まで検討する。 従来は異なるパラダイムと考えられてきたが、コネクショナリストAIはニューラルネットワークに焦点を当てており、シンボリックAIはシンボリック表現と論理を強調している。 大型言語モデル(LLM)の最近の進歩は、ChatGPTとGPT-4によって実証されたものであり、人間の言語をシンボルとして扱う際のコネクショナリストアーキテクチャの可能性を強調している。 この研究は、LLMを利用した自律エージェント(LAA)がこのパラダイムの収束を具現化していると主張している。 LLMをテキストベースの知識モデリングと表現に活用することにより、LAAはニューロシンボリックAIの原則を統合し、推論と意思決定能力の向上を示す。 ニューロシンボリックAIのテーマの中で、LAAと知識グラフを比較することは、人間のような推論プロセスの模倣、大規模なデータセットの効果的スケーリング、明示的な再トレーニングなしにコンテキスト内サンプルを活用することにおける、LAAのユニークな強みを強調している。 この研究は、LAA機能をさらに強化することを目的とした、ニューロ・ベクター・シンボリック統合、命令エンコーディング、暗黙の推論における有望な進路を裏付けている。 ニューロシンボリックAIの進歩を探求し、将来の研究軌道を提案することにより、この研究はAI技術の理解と開発を前進させる。

This article explores the convergence of connectionist and symbolic artificial intelligence (AI), from historical debates to contemporary advancements. Traditionally considered distinct paradigms, connectionist AI focuses on neural networks, while symbolic AI emphasizes symbolic representation and logic. Recent advancements in large language models (LLMs), exemplified by ChatGPT and GPT-4, highlight the potential of connectionist architectures in handling human language as a form of symbols. The study argues that LLM-empowered Autonomous Agents (LAAs) embody this paradigm convergence. By utilizing LLMs for text-based knowledge modeling and representation, LAAs integrate neuro-symbolic AI principles, showcasing enhanced reasoning and decision-making capabilities. Comparing LAAs with Knowledge Graphs within the neuro-symbolic AI theme highlights the unique strengths of LAAs in mimicking human-like reasoning processes, scaling effectively with large datasets, and leveraging in-context samples without explicit re-training. The research underscores promising avenues in neuro-vector-symbolic integration, instructional encoding, and implicit reasoning, aimed at further enhancing LAA capabilities. By exploring the progression of neuro-symbolic AI and proposing future research trajectories, this work advances the understanding and development of AI technologies.
翻訳日:2024-07-12 17:10:08 公開日:2024-07-11
# 重なり合うグループエラー表現を持つ一般化低ランク行列補完モデル

Generalized Low-Rank Matrix Completion Model with Overlapping Group Error Representation ( http://arxiv.org/abs/2407.08517v1 )

ライセンス: Link先を確認
Wenjing Lu, Zhuang Fang, Liang Wu, Liming Tang, Hanxin Liu, (参考訳) 低ランク行列補完(LRMC)技術は低レベル視覚タスクにおいて顕著な成果を上げている。 LRMCでは実世界の行列データが低ランクであるという前提がある。 しかし, 実行列データでは厳密な低ランク性は満たされていない。 幸いなことに、実データの本質的な情報を記述するための適切な効果的な事前表現を考案する、実現可能なスキームが存在する。 本稿では,まず行列データ${\bf{Y}}$を,低ランク近似成分$\bf{X}$と近似誤差成分$\cal{E}$の和としてモデル化する。 この微細なデータ分解アーキテクチャにより、各コンポーネントの情報をより正確に表現することができる。 さらに、上述の誤り構造を特徴付けるために重なり合うグループエラー表現(OGER)関数を設計し、OGERに基づく一般化された低ランク行列補完モデルを提案する。 具体的には、低ランク成分は、行列データの大域構造情報を記述し、OGER成分は、低ランク成分と実データとの近似誤差を補償するだけでなく、行列データの局所ブロック間隔情報をよりよくキャプチャする。 最後に,多元化最小化アルゴリズムを統合した乗算器の交互方向法(ADMM)を開発し,提案モデルの効率的な解法を実現する。 また,理論的にも実験的にも,アルゴリズムの収束を詳細に分析する。 さらに,実験結果から,提案モデルが既存の競合モデルよりも性能が優れていることが示された。

The low-rank matrix completion (LRMC) technology has achieved remarkable results in low-level visual tasks. There is an underlying assumption that the real-world matrix data is low-rank in LRMC. However, the real matrix data does not satisfy the strict low-rank property, which undoubtedly present serious challenges for the above-mentioned matrix recovery methods. Fortunately, there are feasible schemes that devise appropriate and effective priori representations for describing the intrinsic information of real data. In this paper, we firstly model the matrix data ${\bf{Y}}$ as the sum of a low-rank approximation component $\bf{X}$ and an approximation error component $\cal{E}$. This finer-grained data decomposition architecture enables each component of information to be portrayed more precisely. Further, we design an overlapping group error representation (OGER) function to characterize the above error structure and propose a generalized low-rank matrix completion model based on OGER. Specifically, the low-rank component describes the global structure information of matrix data, while the OGER component not only compensates for the approximation error between the low-rank component and the real data but also better captures the local block sparsity information of matrix data. Finally, we develop an alternating direction method of multipliers (ADMM) that integrates the majorization-minimization (MM) algorithm, which enables the efficient solution of the proposed model. And we analyze the convergence of the algorithm in detail both theoretically and experimentally. In addition, the results of numerical experiments demonstrate that the proposed model outperforms existing competing models in performance.
翻訳日:2024-07-12 17:10:08 公開日:2024-07-11
# コンテキスト特徴残差とマルチロスを用いた点雲幾何圧縮のためのコンテキストモデル強化

Enhancing context models for point cloud geometry compression with context feature residuals and multi-loss ( http://arxiv.org/abs/2407.08520v1 )

ライセンス: Link先を確認
Chang Sun, Hui Yuan, Shuai Li, Xin Lu, Raouf Hamzaoui, (参考訳) 点雲の幾何学的圧縮では、コンテキストモデルは通常、ノード占有率の1ホット符号化をラベルとして使用し、その1ホット符号化と、コンテキストモデルによって予測される確率分布との交叉エントロピーを損失関数として使用する。 しかし、このアプローチには2つの大きな弱点がある。 まず、異なるノードのコンテキストの違いは重要ではなく、コンテキストモデルがノード占有率の確率分布を正確に予測することは困難である。 第二に、1ホット符号化はノード占有率の実際の確率分布ではないので、クロスエントロピー損失関数は不正確である。 これらの問題に対処するために,既存の文脈モデルを強化する汎用構造を提案する。 コンテキスト間の差異を増幅するために、コンテキストモデルにコンテキスト特徴残差を導入する。 また、その出力とノード占有率の平均2乗誤差を損失関数として用いて、バックプロパゲーションの正確な勾配を与える多層認識分岐も追加する。 我々は,OctAttention(OctAttention)モデルとVoxelDNN(VoxelDNN)モデルのオブジェクトポイントクラウドデータセットMPEG 8iとMVUB,およびLiDARポイントクラウドデータセットSemanticKITTIの性能を向上できることを示し,本手法の有効性を検証する。

In point cloud geometry compression, context models usually use the one-hot encoding of node occupancy as the label, and the cross-entropy between the one-hot encoding and the probability distribution predicted by the context model as the loss function. However, this approach has two main weaknesses. First, the differences between contexts of different nodes are not significant, making it difficult for the context model to accurately predict the probability distribution of node occupancy. Second, as the one-hot encoding is not the actual probability distribution of node occupancy, the cross-entropy loss function is inaccurate. To address these problems, we propose a general structure that can enhance existing context models. We introduce the context feature residuals into the context model to amplify the differences between contexts. We also add a multi-layer perception branch, that uses the mean squared error between its output and node occupancy as a loss function to provide accurate gradients in backpropagation. We validate our method by showing that it can improve the performance of an octree-based model (OctAttention) and a voxel-based model (VoxelDNN) on the object point cloud datasets MPEG 8i and MVUB, as well as the LiDAR point cloud dataset SemanticKITTI.
翻訳日:2024-07-12 17:10:08 公開日:2024-07-11
# 画像テキスト表現における創発的ビジュアルセマンティック階層

Emergent Visual-Semantic Hierarchies in Image-Text Representations ( http://arxiv.org/abs/2407.08521v1 )

ライセンス: Link先を確認
Morris Alper, Hadar Averbuch-Elor, (参考訳) CLIPのような最近のビジョン・アンド・ランゲージモデル(VLM)は、共有セマンティック空間におけるテキストや画像を分析する強力なツールであるが、画像を記述する可能性のあるテキストの集合の階層的な性質を明示的にモデル化するものではない。 逆に、既存のマルチモーダル階層的表現学習法は、最先端のマルチモーダル基盤モデルによって符号化された知識の活用に失敗し、スクラッチからコストのかかる訓練を必要とする。 本研究では,既存の基盤モデルの知識を考察し,その目的のために直接訓練を受けていないにもかかわらず,視覚・意味的階層の創発的な理解を示すことを発見した。 本稿では,階層的理解の探索と最適化のためのRadial Embedding(RE)フレームワークを提案し,画像テキスト表現における階層的知識の研究を容易にするベンチマークであるHierarCapsデータセットを,大規模言語モデルを介して自動構築する。 以上の結果から,基礎VLMはゼロショット階層的理解を示し,この目的のために設計された先行モデルの性能を上回った。 さらに, 基礎モデルは, 事前学習知識を維持しつつ, テキストのみの微調整フェーズによる階層的推論に適合する可能性が示唆された。

While recent vision-and-language models (VLMs) like CLIP are a powerful tool for analyzing text and images in a shared semantic space, they do not explicitly model the hierarchical nature of the set of texts which may describe an image. Conversely, existing multimodal hierarchical representation learning methods require costly training from scratch, failing to leverage the knowledge encoded by state-of-the-art multimodal foundation models. In this work, we study the knowledge of existing foundation models, finding that they exhibit emergent understanding of visual-semantic hierarchies despite not being directly trained for this purpose. We propose the Radial Embedding (RE) framework for probing and optimizing hierarchical understanding, and contribute the HierarCaps dataset, a benchmark facilitating the study of hierarchical knowledge in image--text representations, constructed automatically via large language models. Our results show that foundation VLMs exhibit zero-shot hierarchical understanding, surpassing the performance of prior models explicitly designed for this purpose. Furthermore, we show that foundation models may be better aligned to hierarchical reasoning via a text-only fine-tuning phase, while retaining pretraining knowledge.
翻訳日:2024-07-12 17:10:08 公開日:2024-07-11
# 高い成功率をもつマルチキュービットエンタングルメントの高速作成

Faster Preparation of Multi-qubit Entanglement with Higher Success Rates ( http://arxiv.org/abs/2407.08525v1 )

ライセンス: Link先を確認
B. -B. Liu, Shi-Lei Su, Y. -L. Zuo, Gang Chen, Ş. K. Özdemir, H. Jing, (参考訳) 最近の研究で注目すべき発見は、2ビットの量子絡み合いの準備プロセスが、従来のエルミート系と比べ、非エルミート系の例外点(EP)やスペクトルの合体付近で著しく加速できることである。 それにもかかわらず、量子EPベースのデバイスにとって重要な障害は、高い絡み合い状態を生成する際の成功率の制限であり、これは全ての損失EPシステムにおいて、絡み合い度と成功率との本質的にのトレードオフ関係から生じる。 本研究は, 利得と損失のバランスを保った真のパリティ時間(\mathcal{PT}$)対称システムを利用することで, この制限を効果的に克服できることを示す。 提案手法は, 精度の高いゲインロスバランスが厳密に維持されていない場合でも, 効率よくマルチキュービットの絡み合わせを作成でき, 両部とも三部構造も絡み合わせを例に示すことができると信じている。 我々の分析結果は数値シミュレーションとよく一致しており、量子情報技術の応用のための多様な量子リソースを作成・構築するための強力なツールとして$\mathcal{PT}$-devicesの可能性を確認している。

A noteworthy discovery in recent research is that the process of two-qubit quantum entanglement preparation can be significantly accelerated near the exceptional point (EP) or spectral coalescence of non-Hermitian systems, as compared to conventional Hermitian setups. Nevertheless, a significant obstacle for quantum EP-based devices is their limited success rate in generating highly entangled states, stemming from an inherent trade-off relation between entanglement degree and success rate in all lossy EP systems. Our study demonstrates that this limitation can be effectively overcome by harnessing a truly parity-time ($\mathcal{PT}$)-symmetric system, which possesses balanced gain and loss, thereby enabling maximal entanglement with rapid speed, high success rates, and greater resilience to non-resonant errors. We believe this approach can efficiently prepare multi-qubit entanglement and use not only bipartite but also tripartite entanglement as examples to illustrate, even when the precise gain-loss balance is not strictly maintained. Our analytical findings are in excellent agreement with numerical simulations, confirming the potential of $\mathcal{PT}$-devices as a powerful tool for creating and engineering diverse quantum resources for applications in quantum information technology.
翻訳日:2024-07-12 17:10:08 公開日:2024-07-11
# BLOS-BEV: 視線を超えて車線分割ネットワークを強化したナビゲーションマップ

BLOS-BEV: Navigation Map Enhanced Lane Segmentation Network, Beyond Line of Sight ( http://arxiv.org/abs/2407.08526v1 )

ライセンス: Link先を確認
Hang Wu, Zhenghao Zhang, Siyuan Lin, Tong Qin, Jin Pan, Qiang Zhao, Chunjing Xu, Ming Yang, (参考訳) 自律走行作業における知覚機能には,バードアイビュー(BEV)の表現が不可欠である。 BEV表現の精度、効率、範囲のバランスをとるのは難しい。 現存する作品の認識範囲は50m以内に限定されている。 BEV表現範囲の拡張は、より包括的な情報と反応時間を提供することで、トポロジ推論、シーン理解、計画といった下流タスクに大きな恩恵をもたらす。 Standard-Definition (SD)ナビゲーションマップは、取得の容易さとメンテナンスコストの低さを特徴とする、道路構造トポロジーの軽量な表現を提供することができる。 直感的なアイデアは、オンボードカメラからの近距離視覚情報と、SDマップからの遠距離視線(BLOS)環境情報を組み合わせることで、知覚能力の拡張を実現することである。 本稿では,視線外から200mまでの精度でSDマップを組み込んだ新しいBEVセグメンテーションモデルBLOS-BEVを提案する。 我々のアプローチは一般的なBEVアーキテクチャに適用でき、SDマップから得られる情報を組み込むことで優れた結果を得ることができる。 SDマップから視覚的BEV表現と意味的特徴を効果的に統合するための様々な特徴融合方式を探索し,両情報源の補完情報を最適に活用することを目的とした。 提案手法は, nuScenes と Argoverse ベンチマーク上での BEV セグメンテーションにおいて, 最先端の性能を実現することを実証した。 マルチモーダル入力により、BEVセグメンテーションは50m未満の近距離で大幅に向上すると同時に、50mから200mの範囲で他の手法を20%以上超え、長距離シナリオにおいて優れた性能を示す。

Bird's-eye-view (BEV) representation is crucial for the perception function in autonomous driving tasks. It is difficult to balance the accuracy, efficiency and range of BEV representation. The existing works are restricted to a limited perception range within 50 meters. Extending the BEV representation range can greatly benefit downstream tasks such as topology reasoning, scene understanding, and planning by offering more comprehensive information and reaction time. The Standard-Definition (SD) navigation maps can provide a lightweight representation of road structure topology, characterized by ease of acquisition and low maintenance costs. An intuitive idea is to combine the close-range visual information from onboard cameras with the beyond line-of-sight (BLOS) environmental priors from SD maps to realize expanded perceptual capabilities. In this paper, we propose BLOS-BEV, a novel BEV segmentation model that incorporates SD maps for accurate beyond line-of-sight perception, up to 200m. Our approach is applicable to common BEV architectures and can achieve excellent results by incorporating information derived from SD maps. We explore various feature fusion schemes to effectively integrate the visual BEV representations and semantic features from the SD map, aiming to leverage the complementary information from both sources optimally. Extensive experiments demonstrate that our approach achieves state-of-the-art performance in BEV segmentation on nuScenes and Argoverse benchmark. Through multi-modal inputs, BEV segmentation is significantly enhanced at close ranges below 50m, while also demonstrating superior performance in long-range scenarios, surpassing other methods by over 20% mIoU at distances ranging from 50-200m.
翻訳日:2024-07-12 17:10:08 公開日:2024-07-11
# 注意に基づく子ノード数予測を用いた点雲幾何圧縮のためのオクツリーに基づく文脈モデルの構築

Enhancing octree-based context models for point cloud geometry compression with attention-based child node number prediction ( http://arxiv.org/abs/2407.08528v1 )

ライセンス: Link先を確認
Chang Sun, Hui Yuan, Xiaolong Mao, Xin Lu, Raouf Hamzaoui, (参考訳) 点雲の幾何学的圧縮において、ほとんどのオクツリーベースのコンテキストモデルは、ノード占有率の1ホット符号化と、コンテキストモデルによって予測される確率分布との交差エントロピーを損失として利用する。 本手法は, 占有する子ノードの数(回帰問題)と位置(分類問題)を255次元の分類問題に変換する。 その結果、ワンホット符号化と予測確率分布との差を正確に測定できない。 まず,クロスエントロピー損失関数が1ホット符号化と予測確率分布の差を正確に測定できない理由を解析する。 次に,注意に基づく子ノード数予測(ACNP)モジュールを提案する。 提案モジュールは、占有する子ノードの数を予測し、8次元ベクトルにマッピングすることで、効率的なエントロピー符号化のために、現在のノードの占有率の確率分布を予測する文脈モデルを支援する。 実験により,提案モジュールはオクツリー型コンテキストモデルの符号化効率を向上させることが示された。

In point cloud geometry compression, most octreebased context models use the cross-entropy between the onehot encoding of node occupancy and the probability distribution predicted by the context model as the loss. This approach converts the problem of predicting the number (a regression problem) and the position (a classification problem) of occupied child nodes into a 255-dimensional classification problem. As a result, it fails to accurately measure the difference between the one-hot encoding and the predicted probability distribution. We first analyze why the cross-entropy loss function fails to accurately measure the difference between the one-hot encoding and the predicted probability distribution. Then, we propose an attention-based child node number prediction (ACNP) module to enhance the context models. The proposed module can predict the number of occupied child nodes and map it into an 8- dimensional vector to assist the context model in predicting the probability distribution of the occupancy of the current node for efficient entropy coding. Experimental results demonstrate that the proposed module enhances the coding efficiency of octree-based context models.
翻訳日:2024-07-12 17:10:08 公開日:2024-07-11
# 時空間的フェデレーション学習のグラディエント・インバージョン・アタックに対するプライバシー強化

Enhancing Privacy of Spatiotemporal Federated Learning against Gradient Inversion Attacks ( http://arxiv.org/abs/2407.08529v1 )

ライセンス: Link先を確認
Lele Zheng, Yang Cao, Renhe Jiang, Kenjiro Taura, Yulong Shen, Sheng Li, Masatoshi Yoshikawa, (参考訳) 時空間フェデレーション学習は、様々な位置情報ベースのサービスにおいて、共有勾配しか持たない価値あるモデルを訓練する能力のために、近年、集中的な研究が進められている。 一方、最近の研究では、画像やテキスト上での共有勾配は、勾配反転攻撃(GIA)を受ける可能性があることが示されている。 しかし、現在、時空間学習における勾配反転攻撃に関する体系的な研究は行われていない。 本稿では,攻撃と防衛の観点からの時空間的フェデレーション学習における勾配攻撃問題について検討する。 まず、時空間学習におけるプライバシーリスクを理解するために、時空間データに適した勾配攻撃アルゴリズムである時空間勾配反転攻撃(ST-GIA)を提案する。 さらに、時空間学習における勾配反転攻撃を軽減するための適応的な防御戦略を設計する。 摂動レベルを動的に調整することで、さまざまなトレーニングデータに対して、適切な保護を提供することができます。 実世界の3つのデータセットに対する集中的な実験分析により、提案した防衛戦略が、効果的なセキュリティ保護を備えた時空間フェデレーション学習の有用性を十分に維持できることが明らかとなった。

Spatiotemporal federated learning has recently raised intensive studies due to its ability to train valuable models with only shared gradients in various location-based services. On the other hand, recent studies have shown that shared gradients may be subject to gradient inversion attacks (GIA) on images or texts. However, so far there has not been any systematic study of the gradient inversion attacks in spatiotemporal federated learning. In this paper, we explore the gradient attack problem in spatiotemporal federated learning from attack and defense perspectives. To understand privacy risks in spatiotemporal federated learning, we first propose Spatiotemporal Gradient Inversion Attack (ST-GIA), a gradient attack algorithm tailored to spatiotemporal data that successfully reconstructs the original location from gradients. Furthermore, we design an adaptive defense strategy to mitigate gradient inversion attacks in spatiotemporal federated learning. By dynamically adjusting the perturbation levels, we can offer tailored protection for varying rounds of training data, thereby achieving a better trade-off between privacy and utility than current state-of-the-art methods. Through intensive experimental analysis on three real-world datasets, we reveal that the proposed defense strategy can well preserve the utility of spatiotemporal federated learning with effective security protection.
翻訳日:2024-07-12 17:10:08 公開日:2024-07-11
# 時間依存性調和振動子ポテンシャルを持つダンクル・シュレーディンガー方程式

Dunkl-Schrödinger equation with time-dependent harmonic oscillator potential ( http://arxiv.org/abs/2407.08531v1 )

ライセンス: Link先を確認
A. Benchikha, B. Khantoul, B. Hamil, B. C. Lütfüoğlu, (参考訳) 本稿ではルイス・リースフェルド法を用いて、ダンクル微分の枠組み内で時間依存質量と周波数を持つ1次元および3次元調和振動子の波動関数の明示的な形式を定式化し、不変および補助方程式のパリティ依存の導出につながる。

In this paper, using the Lewis-Riesenfeld method, we determine the explicit form of the wavefunctions of one- and three-dimensional harmonic oscillators with time-dependent mass and frequency within the framework of the Dunkl derivative, which leads to the derivation of a parity-dependent of the invariant and auxiliary equation.
翻訳日:2024-07-12 17:10:08 公開日:2024-07-11
# 解釈型マルウェアにおける戦術・技法・手順(TTP):大規模言語モデルを用いたゼロショット生成

Tactics, Techniques, and Procedures (TTPs) in Interpreted Malware: A Zero-Shot Generation with Large Language Models ( http://arxiv.org/abs/2407.08532v1 )

ライセンス: Link先を確認
Ying Zhang, Xiaoyan Zhou, Hui Wen, Wenjia Niu, Jiqiang Liu, Haining Wang, Qiang Li, (参考訳) 今日では、オープンソースのソフトウェア(OSS)エコシステムは、ソフトウェアサプライチェーン(SSC)攻撃によるセキュリティ上の脅威に悩まされている。 OSSマルウェアの解釈はSSC攻撃において重要な役割を担い、犯罪者はマルウェアのインストールや悪意ある活動の実行を騙す攻撃ベクトルの武器を持っている。 本稿では,MITRE ATT\&CKが提案する戦術,技法,手順(TTP)を解釈マルウェア解析に導入し,攻撃ライフサイクルの異なるフェーズを特徴付ける。 具体的には,解釈されたマルウェアパッケージのTTPを抽出するゼロショットアプローチであるGENTTPを提案する。 GENTTPは、大きな言語モデル(LLM)を活用して、入力が悪意のあるパッケージであるTTPを自動的に生成し、出力は詐欺的戦術であり、攻撃ベクトルの実行戦術である。 GENTTPの有効性を検証するため,地上の真理ラベル付きデータセットと野生の大規模データセットの2つの評価データセットを収集した。 実験の結果, GENTTPは高い精度と効率でTTPを生成できることがわかった。 GENTTPの利点を示すために、3,700以上のPyPIマルウェアのTPからLLMベースのチャットボットを構築した。 さらに,マルウェアのTTPを大規模に定量的に分析する。 本研究の主な成果は,(1) マルウェアや攻撃キャンペーンが増加しても,OSS の悪意パッケージが比較的安定した TTP を共有していること,(2) TTP がマルウェアによる攻撃の特徴を反映していること,(3) マルウェアの背後にある攻撃者の意図が TTP にリンクされていること,である。

Nowadays, the open-source software (OSS) ecosystem suffers from security threats of software supply chain (SSC) attacks. Interpreted OSS malware plays a vital role in SSC attacks, as criminals have an arsenal of attack vectors to deceive users into installing malware and executing malicious activities. In this paper, we introduce tactics, techniques, and procedures (TTPs) proposed by MITRE ATT\&CK into the interpreted malware analysis to characterize different phases of an attack lifecycle. Specifically, we propose GENTTP, a zero-shot approach to extracting a TTP of an interpreted malware package. GENTTP leverages large language models (LLMs) to automatically generate a TTP, where the input is a malicious package, and the output is a deceptive tactic and an execution tactic of attack vectors. To validate the effectiveness of GENTTP, we collect two datasets for evaluation: a dataset with ground truth labels and a large dataset in the wild. Experimental results show that GENTTP can generate TTPs with high accuracy and efficiency. To demonstrate GENTTP's benefits, we build an LLM-based Chatbot from 3,700+ PyPI malware's TTPs. We further conduct a quantitative analysis of malware's TTPs at a large scale. Our main findings include: (1) many OSS malicious packages share a relatively stable TTP, even with the increasing emergence of malware and attack campaigns, (2) a TTP reflects characteristics of a malware-based attack, and (3) an attacker's intent behind the malware is linked to a TTP.
翻訳日:2024-07-12 17:10:08 公開日:2024-07-11
# ポイントインターベンション:人間のファジリングによるACVPテストベクトル生成の改善

Point Intervention: Improving ACVP Test Vector Generation Through Human Assisted Fuzzing ( http://arxiv.org/abs/2407.08535v1 )

ライセンス: Link先を確認
Iaroslav Gridin, Antonis Michalas, (参考訳) Automated Cryptographic Validation Protocol (ACVP) は、ソフトウェアやハードウェアの暗号モジュールの自動検証に使用される既存のプロトコルである。 本稿では,暗号ライブラリのACVPフォーマットで精査する手法とツールを提供するシステムを提案する。 本システムは,暗号プリミティブをファジリングするためのハイブリッドアプローチを用いて,既存のファジリング手法よりも優れたカバレッジを実現する。 さらに、このシステムは暗号化ライブラリのテストモジュールを簡単かつ安全に作成できるフレームワークを提供する。 この研究は、このシステムが、人気のある暗号ライブラリであるNAS(Network Security Services)の自動テストの改善にどのように利用されているかを示し、その脆弱性を検出し、ACVPテストフォーマットを改善し、さらに発展させる方法を提案している。

Automated Cryptographic Validation Protocol (ACVP) is an existing protocol that is used to validate a software or hardware cryptographic module automatically. In this work, we present a system providing the method and tools to produce well-covering tests in ACVP format for cryptographic libraries. The system achieves better coverage than existing fuzzing methods by using a hybrid approach to fuzzing cryptographic primitives. In addition, the system offers a framework that allows to creates easily and securely create testing modules for cryptographic libraries. The work demonstrates how this system has been used to improve automated testing of NSS (Network Security Services), a popular cryptographic library, detect its vulnerabilities and suggest ways to improve and further develop the ACVP test format.
翻訳日:2024-07-12 17:10:08 公開日:2024-07-11
# 学習可能なドリフト補償による非経験的連続表現学習

Exemplar-free Continual Representation Learning via Learnable Drift Compensation ( http://arxiv.org/abs/2407.08536v1 )

ライセンス: Link先を確認
Alex Gomez-Villa, Dipam Goswami, Kai Wang, Andrew D. Bagdanov, Bartlomiej Twardowski, Joost van de Weijer, (参考訳) スクラッチから訓練し、小さな最初のタスクから始めるバックボーンを用いた、経験のないクラスインクリメンタルラーニングは、連続的な表現学習にとって重要な課題である。 プロトタイプベースのアプローチは、継続的に更新されると、古いクラスのプロトタイプが新機能空間で異なる位置にドリフトするため、セマンティックドリフトの重要な問題に直面します。 プロトタイプに基づく連続学習の分析により,特徴抽出器の識別能力の低下に起因するものではなく,ドリフト補償によって補正できる可能性が示唆された。 これを解決するために,学習可能ドリフト補償 (LDC) を提案する。 LDCは、既存の継続的学習アプローチの上に、素早く簡単に統合できます。 さらに,LCDを自己教師付きCL法と組み合わせることで,初となる半教師付き半教師付き連続学習手法を提案する。 複数のデータセットにまたがる教師付き設定と半教師付き設定の両方において、最先端のパフォーマンスを実現する。 コードは \url{https://github.com/alviur/ldc} で入手できる。

Exemplar-free class-incremental learning using a backbone trained from scratch and starting from a small first task presents a significant challenge for continual representation learning. Prototype-based approaches, when continually updated, face the critical issue of semantic drift due to which the old class prototypes drift to different positions in the new feature space. Through an analysis of prototype-based continual learning, we show that forgetting is not due to diminished discriminative power of the feature extractor, and can potentially be corrected by drift compensation. To address this, we propose Learnable Drift Compensation (LDC), which can effectively mitigate drift in any moving backbone, whether supervised or unsupervised. LDC is fast and straightforward to integrate on top of existing continual learning approaches. Furthermore, we showcase how LDC can be applied in combination with self-supervised CL methods, resulting in the first exemplar-free semi-supervised continual learning approach. We achieve state-of-the-art performance in both supervised and semi-supervised settings across multiple datasets. Code is available at \url{https://github.com/alviur/ldc}.
翻訳日:2024-07-12 17:10:08 公開日:2024-07-11
# Bride Arbitrager: Bribery対応の遅延ブロック生産によるEthereum 2.0のArbitrageの強化

BriDe Arbitrager: Enhancing Arbitrage in Ethereum 2.0 via Bribery-enabled Delayed Block Production ( http://arxiv.org/abs/2407.08537v1 )

ライセンス: Link先を確認
Hulin Yang, Mingzhe Li, Jin Zhang, Alia Asheralieva, Qingsong Wei, Siow Mong Rick Goh, (参考訳) Ethereum 2.0の出現は、特にProof-of-Stakeコンセンサスへのシフトなど、大きな変化をもたらした。 この変更は、仲裁の新たな機会と課題を提示します。 これはEthereum 2.0用に設計された新しいツールで、Bribery駆動のアタックを活用して、生産を遅延させ、仲裁ゲインを増やす。 主な考え方は、悪意のあるプロポーザがバリデータやプロポーザを送付することでブロック生産を遅らせることであり、これにより、仲裁の機会を特定する時間を増やすことである。 収賄プロセスの分析を通じて、適応的な収賄戦略を設計する。 さらに、遅延トランザクション順序付けアルゴリズムを提案し、遅延時間を利用して悪意ある提案者に対する仲裁利益を増幅する。 贈収賄プロセスの公平性と自動化を確保するため、贈収賄スマートコントラクトと贈収賄クライアントを設計・実装する。 結果として、BriDe Arbitragerは、投票権の限られた (1/4) 割合の敵を制御し、収賄によってブロック生産を遅らせ、より多くの利益を仲裁することができる。 Ethereumの歴史的トランザクションに基づく大規模な実験結果から、Bride Arbitragerは平均8.66 ETH(16,442.23 USD)の日々の利益を得ることが示された。 さらに、当社のアプローチはスラッシュ機構を起動せず、プロポーラビルダ分離やその他の潜在的なメカニズムがEthereumに採用される場合でも有効である。

The advent of Ethereum 2.0 has introduced significant changes, particularly the shift to Proof-of-Stake consensus. This change presents new opportunities and challenges for arbitrage. Amidst these changes, we introduce BriDe Arbitrager, a novel tool designed for Ethereum 2.0 that leverages Bribery-driven attacks to Delay block production and increase arbitrage gains. The main idea is to allow malicious proposers to delay block production by bribing validators/proposers, thereby gaining more time to identify arbitrage opportunities. Through analysing the bribery process, we design an adaptive bribery strategy. Additionally, we propose a Delayed Transaction Ordering Algorithm to leverage the delayed time to amplify arbitrage profits for malicious proposers. To ensure fairness and automate the bribery process, we design and implement a bribery smart contract and a bribery client. As a result, BriDe Arbitrager enables adversaries controlling a limited (< 1/4) fraction of the voting powers to delay block production via bribery and arbitrage more profit. Extensive experimental results based on Ethereum historical transactions demonstrate that BriDe Arbitrager yields an average of 8.66 ETH (16,442.23 USD) daily profits. Furthermore, our approach does not trigger any slashing mechanisms and remains effective even under Proposer Builder Separation and other potential mechanisms will be adopted by Ethereum.
翻訳日:2024-07-12 17:10:08 公開日:2024-07-11
# OMR-NET:スクリーンコンテンツ画像圧縮のための2段階オクターブマルチスケール残差ネットワーク

OMR-NET: a two-stage octave multi-scale residual network for screen content image compression ( http://arxiv.org/abs/2407.08545v1 )

ライセンス: Link先を確認
Shiqi Jiang, Ting Ren, Congrui Fu, Shuai Li, Hui Yuan, (参考訳) スクリーンコンテンツ(SC)は、ノイズフリー、反復パターン、高コントラストといったユニークな特徴を持つ自然シーン(NS)とは異なる。 SCにおける現在の学習画像圧縮(lic)手法の欠如に対処するために,高頻度特徴抽出のための改良された2段階オクターブ畳み込み残差ブロック(IToRB)と,SCのマルチスケール学習と非線形性を改善するためのカスケードされた2段階多段階残差ブロック(CTMSRB)を提案する。 さらに、特に画像の高コントラスト領域において、ウィンドウベースのアテンションモジュール(WAM)を用いて画素相関をキャプチャする。 また、テキスト、チャート、グラフィック、アニメーション、映画、ゲーム、SC画像とNS画像の混合を含む、多様なSC画像圧縮データセット(SDU-SCICD2K)を構築した。 実験の結果,提案手法は NS データよりもSC に適しており,SC 画像の速度歪み性能において既存の LIC 手法よりも優れていた。 コードはhttps://github.com/SunshineSki/OMR Net.gitで公開されている。

Screen content (SC) differs from natural scene (NS) with unique characteristics such as noise-free, repetitive patterns, and high contrast. Aiming at addressing the inadequacies of current learned image compression (LIC) methods for SC, we propose an improved two-stage octave convolutional residual blocks (IToRB) for high and low-frequency feature extraction and a cascaded two-stage multi-scale residual blocks (CTMSRB) for improved multi-scale learning and nonlinearity in SC. Additionally, we employ a window-based attention module (WAM) to capture pixel correlations, especially for high contrast regions in the image. We also construct a diverse SC image compression dataset (SDU-SCICD2K) for training, including text, charts, graphics, animation, movie, game and mixture of SC images and NS images. Experimental results show our method, more suited for SC than NS data, outperforms existing LIC methods in rate-distortion performance on SC images. The code is publicly available at https://github.com/SunshineSki/OMR Net.git.
翻訳日:2024-07-12 17:10:08 公開日:2024-07-11
# 解剖学的セグメンテーションによるアルツハイマー病分類器の塩分マップの定量的評価

Quantitative Evaluation of the Saliency Map for Alzheimer's Disease Classifier with Anatomical Segmentation ( http://arxiv.org/abs/2407.08546v1 )

ライセンス: Link先を確認
Yihan Zhang, Xuanshuo Zhang, Wei Wu, Haohan Wang, (参考訳) サラレンシマップは、アルツハイマー病(AD)の深層学習分類器の解釈に広く用いられている。 しかし、ADは異種であり、複数のサブタイプがあるため、ADの病的メカニズムは未だ完全には理解されておらず、患者によって様々である。 このような理解が欠如しているため、AD分類器の精度マップを包括的かつ効果的に評価することは困難である。 本稿では,解剖学的セグメンテーションを用いて,異なる脳領域に唾液価を割り当てる。 AD と NC (Normal Control) に対応する正当性マップの分布をプロットすることにより,モデルの決定過程を包括的に把握することができる。 疾患進行中のAD患者において脳の容積収縮が起こるという事実を活用するため,脳の容積変化の平均Pearson相関を計算し,脳の容積変化スコア(VCS)という新たな評価基準を定義した。 このように、VCSメトリックは、異なるモデルから得られた唾液マップが脳全体の異なる領域にわたる体積の変化にどのように関係するかについての知識を得るのに役立ちます。 私たちはADNIデータセットの候補モデルをトレーニングし、3つの異なるデータセットでテストしました。 我々の結果は次のとおりである。 (i) 高いVCSを持つモデルは、AD病理に関連したより詳細なサリエンシマップを示す傾向がある。 (II) FGSMや確率マスキングのような勾配に基づく逆行訓練戦略を用いることで、モデルのVCSを改善することができる。

Saliency maps have been widely used to interpret deep learning classifiers for Alzheimer's disease (AD). However, since AD is heterogeneous and has multiple subtypes, the pathological mechanism of AD remains not fully understood and may vary from patient to patient. Due to the lack of such understanding, it is difficult to comprehensively and effectively assess the saliency map of AD classifier. In this paper, we utilize the anatomical segmentation to allocate saliency values into different brain regions. By plotting the distributions of saliency maps corresponding to AD and NC (Normal Control), we can gain a comprehensive view of the model's decisions process. In order to leverage the fact that the brain volume shrinkage happens in AD patients during disease progression, we define a new evaluation metric, brain volume change score (VCS), by computing the average Pearson correlation of the brain volume changes and the saliency values of a model in different brain regions for each patient. Thus, the VCS metric can help us gain some knowledge of how saliency maps resulting from different models relate to the changes of the volumes across different regions in the whole brain. We trained candidate models on the ADNI dataset and tested on three different datasets. Our results indicate: (i) models with higher VCSs tend to demonstrate saliency maps with more details relevant to the AD pathology, (ii) using gradient-based adversarial training strategies such as FGSM and stochastic masking can improve the VCSs of the models.
翻訳日:2024-07-12 17:00:06 公開日:2024-07-11
# タスク自動化とフレキシビリティ向上のための大規模言語モデルを生産システムに組み込む

Incorporating Large Language Models into Production Systems for Enhanced Task Automation and Flexibility ( http://arxiv.org/abs/2407.08550v1 )

ライセンス: Link先を確認
Yuchen Xia, Jize Zhang, Nasser Jazdi, Michael Weyrich, (参考訳) 本稿では,タスクの自動化と柔軟性の向上を目的とした,大規模言語モデル(LLM)エージェントを自動生産システムに統合するための新しいアプローチを提案する。 自動化ピラミッドに基づいた階層的なフレームワーク内での運用運用の組織化。 アトミックな操作機能はマイクロサービスとしてモデル化され、専用のデジタルツインシステム内のインターフェース呼び出しを通じて実行される。 これにより、プロダクションプロセスのオーケストレーションのためのスケーラブルでフレキシブルな基盤が実現できます。 このデジタルツインシステムでは、低レベルのハードウェア固有のデータがセマンティックに濃縮され、生産計画と制御タスクのためにLLMに解釈可能である。 大規模言語モデルエージェントは、これらの生産固有のデータと知識を体系的に解釈するよう促される。 ユーザ要求の受信やトリガーイベントの特定を行うと、LLMエージェントはプロセスプランを生成する。 この計画はその後、実際の自動化システム内でマイクロサービスとして実行される一連のアトミックオペレーションに分解される。 本研究では,LLMが実運用計画や制御タスクを具体的なケーススタディを通じてどのように処理できるかを実演する。 これにより、より高度なタスク自動化と柔軟性を備えた直感的な生産設備が実現される。 最後に、自律システムにおける大規模言語モデルの潜在能力をフルに実現するためのいくつかの制限を明らかにし、有望なメリットを指摘した。 この一連の研究シリーズのデモは、https://github.com/YuchenXia/GPT4IndustrialAutomationで見ることができる。

This paper introduces a novel approach to integrating large language model (LLM) agents into automated production systems, aimed at enhancing task automation and flexibility. We organize production operations within a hierarchical framework based on the automation pyramid. Atomic operation functionalities are modeled as microservices, which are executed through interface invocation within a dedicated digital twin system. This allows for a scalable and flexible foundation for orchestrating production processes. In this digital twin system, low-level, hardware-specific data is semantically enriched and made interpretable for LLMs for production planning and control tasks. Large language model agents are systematically prompted to interpret these production-specific data and knowledge. Upon receiving a user request or identifying a triggering event, the LLM agents generate a process plan. This plan is then decomposed into a series of atomic operations, executed as microservices within the real-world automation system. We implement this overall approach on an automated modular production facility at our laboratory, demonstrating how the LLMs can handle production planning and control tasks through a concrete case study. This results in an intuitive production facility with higher levels of task automation and flexibility. Finally, we reveal the several limitations in realizing the full potential of the large language models in autonomous systems and point out promising benefits. Demos of this series of ongoing research series can be accessed at: https://github.com/YuchenXia/GPT4IndustrialAutomation
翻訳日:2024-07-12 17:00:06 公開日:2024-07-11
# ベクトル量子化のない自己回帰音声合成

Autoregressive Speech Synthesis without Vector Quantization ( http://arxiv.org/abs/2407.08551v1 )

ライセンス: Link先を確認
Lingwei Meng, Long Zhou, Shujie Liu, Sanyuan Chen, Bing Han, Shujie Hu, Yanqing Liu, Jinyu Li, Sheng Zhao, Xixin Wu, Helen Meng, Furu Wei, (参考訳) 我々は,テキストから音声合成(TTS)のための,新しい連続値トークンに基づく言語モデリング手法であるMELLEを提案する。 MELLEはテキスト条件から直接連続したメル-スペクトログラムフレームを自動回帰的に生成し、もともとメル-スペクトログラムと比較してオーディオ圧縮と犠牲フィリティのために設計されたベクトル量子化の必要性を回避した。 具体的には (i) クロスエントロピー損失の代わりに, スペクトルフラックス損失関数を用いた回帰損失を適用し, 連続値トークンの確率分布をモデル化する。 (II) MELLEに変分推論を導入し, サンプリング機構を容易にし, 出力の多様性とモデルロバスト性を向上した。 実験では、2段階のコーデック言語モデルであるVALL-Eとその変種と比較して、単一ステージのMELLEは、離散コードサンプリングの固有の欠陥を回避し、複数のメトリクスで優れたパフォーマンスを実現し、より合理化されたパラダイムを提供する。 私たちの作品のデモはhttps://aka.ms/melleを参照してください。

We present MELLE, a novel continuous-valued tokens based language modeling approach for text to speech synthesis (TTS). MELLE autoregressively generates continuous mel-spectrogram frames directly from text condition, bypassing the need for vector quantization, which are originally designed for audio compression and sacrifice fidelity compared to mel-spectrograms. Specifically, (i) instead of cross-entropy loss, we apply regression loss with a proposed spectrogram flux loss function to model the probability distribution of the continuous-valued tokens. (ii) we have incorporated variational inference into MELLE to facilitate sampling mechanisms, thereby enhancing the output diversity and model robustness. Experiments demonstrate that, compared to the two-stage codec language models VALL-E and its variants, the single-stage MELLE mitigates robustness issues by avoiding the inherent flaws of sampling discrete codes, achieves superior performance across multiple metrics, and, most importantly, offers a more streamlined paradigm. See https://aka.ms/melle for demos of our work.
翻訳日:2024-07-12 17:00:06 公開日:2024-07-11
# 正当性と排他性:ソーシャルメディアレコメンデーションアルゴリズムとプロフェッショナルネットワークへの所属のダイナミクス

Authenticity and exclusion: social media recommendation algorithms and the dynamics of belonging in professional networks ( http://arxiv.org/abs/2407.08552v1 )

ライセンス: Link先を確認
Nil-Jana Akpinar, Sina Fazelpour, (参考訳) ホモフィリー(Homophily) - 類似性の魅力 - は、社会的相互作用に大きな影響を与え、関連性、情報開示、社会交流のダイナミクスに影響を及ぼす。 組織的な研究によると、プロフェッショナルと個人の境界が重なり合うと、少数民族の個人は、これらのホモフィリー駆動のダイナミクスにより、真正性と包摂性の間にジレンマに遭遇する。 逆に、包摂性を得るためには、彼らは同化するようにプレッシャーをかけられるかもしれない。 異なる会話コンテキストが頻繁に崩壊するソーシャルメディアプラットフォームの性質と設計、そしてこれらのプラットフォームの中心にある推奨アルゴリズムは、ネットワーク構造と歴史的ユーザエンゲージメントに基づいてコンテンツを優先順位付けし、これらのダイナミクスに影響を与えるのか? 本稿では,エージェント・ベース・シミュレーションを用いてこの問題を考察する。 マイノリティグループによるプロ向けコンテンツの可視性の低下が示唆され,推奨アルゴリズムによって時間とともに悪化する傾向がみられた。 これらの少数派コミュニティの中では、多数派と密接に類似しているユーザは、より可視性が高い傾向にある。 本研究の結果の哲学的・設計的意味を考察し,情報正義,包摂性,および多様性の認識的利益に関する疑問との関連性について考察する。

Homophily - the attraction of similarity - profoundly influences social interactions, affecting associations, information disclosure, and the dynamics of social exchanges. Organizational studies reveal that when professional and personal boundaries overlap, individuals from minority backgrounds often encounter a dilemma between authenticity and inclusion due to these homophily-driven dynamics: if they disclose their genuine interests, they risk exclusion from the broader conversation. Conversely, to gain inclusion, they might feel pressured to assimilate. How might the nature and design of social media platforms, where different conversational contexts frequently collapse, and the recommender algorithms that are at the heart of these platforms, which can prioritize content based on network structure and historical user engagement, impact these dynamics? In this paper, we employ agent-based simulations to investigate this question. Our findings indicate a decline in the visibility of professional content generated by minority groups, a trend that is exacerbated over time by recommendation algorithms. Within these minority communities, users who closely resemble the majority group tend to receive greater visibility. We examine the philosophical and design implications of our results, discussing their relevance to questions of informational justice, inclusion, and the epistemic benefits of diversity.
翻訳日:2024-07-12 17:00:06 公開日:2024-07-11
# 人工知能モデルのための厳格かつ費用対効果のある臨床試験の確立

Establishing Rigorous and Cost-effective Clinical Trials for Artificial Intelligence Models ( http://arxiv.org/abs/2407.08554v1 )

ライセンス: Link先を確認
Wanling Gao, Yunyou Huang, Dandan Cui, Zhuoming Yu, Wenjing Liu, Xiaoshuang Liang, Jiahui Zhao, Jiyue Xie, Hao Li, Li Ma, Ning Ye, Yumiao Kang, Dingfeng Luo, Peng Pan, Wei Huang, Zhongmou Liu, Jizhong Hu, Gangyuan Zhao, Chongrong Jiang, Fan Huang, Tianyi Wei, Suqin Tang, Bingjie Xia, Zhifei Zhang, Jianfeng Zhan, (参考訳) 人工知能(AI)と医学における臨床実践の間には、厳格で費用対効果の高い評価手法が欠如していることが主な原因である。 最先端および最先端のAIモデル評価は、医療データセットの研究室研究や、患者中心または患者中心のコントロールを持たない直接臨床試験に限られる。 さらに、AIとの共同作業において臨床医が果たす重要な役割は、その臨床実践への影響を決定する上で重要なものであり、しばしば見過ごされがちである。 臨床におけるAIモデルに対する厳密で費用対効果の高い評価手法の重要性を強調し,Dual-Cinician-centered AI randomized control trial (DC-AI RCTs) と仮想クリニックベースのin-silico trial (VC-MedAIs) をDC-AI RCTの効果的なプロキシとして取り上げる。 125名の臨床医を対象とする14の医療センターにおける2段階のDC-AI RCTから7500件の診断記録を活用した結果, DC-AI RCTの必要性とVC-MedAIの有効性が示された。 特に、VC-MedAIはヒトの臨床医と互換性があり、今後のDC-AI RCTからの洞察と結論を複製している。 我々は、DC-AI RCTとVC-MedAIを中心的な進歩として、臨床実践におけるAIモデルの革新的かつ変革的な評価手法を提示し、プリクリニカルな設定ミラーリング手法を提供し、コスト効率と迅速な開発パラダイムを再構築する。 治験登録:ChiCTR2400086816。

A profound gap persists between artificial intelligence (AI) and clinical practice in medicine, primarily due to the lack of rigorous and cost-effective evaluation methodologies. State-of-the-art and state-of-the-practice AI model evaluations are limited to laboratory studies on medical datasets or direct clinical trials with no or solely patient-centered controls. Moreover, the crucial role of clinicians in collaborating with AI, pivotal for determining its impact on clinical practice, is often overlooked. For the first time, we emphasize the critical necessity for rigorous and cost-effective evaluation methodologies for AI models in clinical practice, featuring patient/clinician-centered (dual-centered) AI randomized controlled trials (DC-AI RCTs) and virtual clinician-based in-silico trials (VC-MedAI) as an effective proxy for DC-AI RCTs. Leveraging 7500 diagnosis records from two-phase inaugural DC-AI RCTs across 14 medical centers with 125 clinicians, our results demonstrate the necessity of DC-AI RCTs and the effectiveness of VC-MedAI. Notably, VC-MedAI performs comparably to human clinicians, replicating insights and conclusions from prospective DC-AI RCTs. We envision DC-AI RCTs and VC-MedAI as pivotal advancements, presenting innovative and transformative evaluation methodologies for AI models in clinical practice, offering a preclinical-like setting mirroring conventional medicine, and reshaping development paradigms in a cost-effective and fast-iterative manner. Chinese Clinical Trial Registration: ChiCTR2400086816.
翻訳日:2024-07-12 17:00:06 公開日:2024-07-11
# SLoRD:Vertebrae Segmentationにおける形状整合性のための構造的低ランク記述子

SLoRD: Structural Low-Rank Descriptors for Shape Consistency in Vertebrae Segmentation ( http://arxiv.org/abs/2407.08555v1 )

ライセンス: Link先を確認
Xin You, Yixin Lou, Minghui Zhang, Chuyan Zhang, Jie Yang, Yun Gu, (参考訳) CT画像からの椎骨の自動的, 正確な分節化は, 様々な臨床応用に不可欠である。 しかし、明示的かつ厳密な制約が欠如しているため、既存の方法、特に単段階法では、単脊椎内の複数のラベル予測に言及する、脳内セグメンテーションの不整合の難しさに悩まされている。 多段階法では、第1段階としての脊椎検出は、病理学および精神インプラントに影響される。 したがって、誤検出はセグメンテーションの前にバイアスパッチを引き起こし、不整合ラベリングとセグメンテーションを引き起こす。 私たちの研究は、インスタンスセグメンテーションの観点から動機づけられ、この制限に対処するために、個別と完全なバイナリマスクをラベル付けしようとしています。 具体的には、SLoRDと呼ばれる形状整合性のための構造的低ランク記述子に基づく輪郭型ネットワークを提案する。 これらの輪郭記述子は、事前にデータ駆動方式で取得される。 輪郭記述子をより正確に表現するために、球面座標系を採用し、球面セントロイドを考案する。 さらに、輪郭の喪失は明示的な一貫性の制約を課すように設計されており、脊椎の境界に近い後退した輪郭点を促進する。 VerSe 2019の定量的および定性的な評価は、他のシングルステージおよびマルチステージのSOTA(State-of-the-art)メソッドよりも優れたパフォーマンスを示している。

Automatic and precise segmentation of vertebrae from CT images is crucial for various clinical applications. However, due to a lack of explicit and strict constraints, existing methods especially for single-stage methods, still suffer from the challenge of intra-vertebrae segmentation inconsistency, which refers to multiple label predictions inside a singular vertebra. For multi-stage methods, vertebrae detection serving as the first step, is affected by the pathology and mental implants. Thus, incorrect detections cause biased patches before segmentation, then lead to inconsistent labeling and segmentation. In our work, motivated by the perspective of instance segmentation, we try to label individual and complete binary masks to address this limitation. Specifically, a contour-based network is proposed based on Structural Low-Rank Descriptors for shape consistency, termed SLoRD. These contour descriptors are acquired in a data-driven manner in advance. For a more precise representation of contour descriptors, we adopt the spherical coordinate system and devise the spherical centroid. Besides, the contour loss is designed to impose explicit consistency constraints, facilitating regressed contour points close to vertebral boundaries. Quantitative and qualitative evaluations on VerSe 2019 demonstrate the superior performance of our framework over other single-stage and multi-stage state-of-the-art (SOTA) methods.
翻訳日:2024-07-12 17:00:06 公開日:2024-07-11
# STマンバ 限られたデータを用いた交通流推定のための時空間マンバ

ST-Mamba: Spatial-Temporal Mamba for Traffic Flow Estimation Recovery using Limited Data ( http://arxiv.org/abs/2407.08558v1 )

ライセンス: Link先を確認
Doncheng Yuan, Jianzhe Xue, Jinshan Su, Wenchao Xu, Haibo Zhou, (参考訳) 交通流推定(TFE)は都市交通システムにおいて重要である。 従来のオンロード検出器は、限られたカバレッジと高いコストで妨げられているが、クラウドコンピューティングと、運転速度やGPS座標などの車載ネットワークデータのマイニングは、有望で費用対効果の高い代替手段である。 さらに、データ収集の最小化はオーバーヘッドを大幅に削減する。 しかし、限られたデータは、TFEの不正確さと不安定性につながる可能性がある。 そこで我々は,畳み込みニューラルネットワーク(CNN)とMambaフレームワークを組み合わせた深層学習モデルである空間時空間Mamba(ST-Mamba)を紹介する。 ST-Mambaは交通流内の時空間パターンを効果的に捉えることにより、TFEの精度と安定性を向上させるように設計されている。 我々のモデルは、最小限のデータしか利用せず、広範なデータセットから得られる結果に匹敵する結果を達成することを目的としている。 実世界のデータセットを用いたシミュレーションは、限られたデータに基づいて都市景観に正確で安定したTFEを配信する我々のモデルの能力を検証し、TFEのコスト効率の高いソリューションを確立した。

Traffic flow estimation (TFE) is crucial for urban intelligent traffic systems. While traditional on-road detectors are hindered by limited coverage and high costs, cloud computing and data mining of vehicular network data, such as driving speeds and GPS coordinates, present a promising and cost-effective alternative. Furthermore, minimizing data collection can significantly reduce overhead. However, limited data can lead to inaccuracies and instability in TFE. To address this, we introduce the spatial-temporal Mamba (ST-Mamba), a deep learning model combining a convolutional neural network (CNN) with a Mamba framework. ST-Mamba is designed to enhance TFE accuracy and stability by effectively capturing the spatial-temporal patterns within traffic flow. Our model aims to achieve results comparable to those from extensive data sets while only utilizing minimal data. Simulations using real-world datasets have validated our model's ability to deliver precise and stable TFE across an urban landscape based on limited data, establishing a cost-efficient solution for TFE.
翻訳日:2024-07-12 17:00:06 公開日:2024-07-11
# 多段階学習と2重頑健なディープニューラルネットワークによる因果推論

Causal inference through multi-stage learning and doubly robust deep neural networks ( http://arxiv.org/abs/2407.08560v1 )

ライセンス: Link先を確認
Yuqian Zhang, Jelena Bradic, (参考訳) ディープニューラルネットワーク(DNN)は、大規模な教師付き学習問題、特にサンプルサイズ$n$と共変量$p$の両方が大きいシナリオにおいて、顕著な経験的性能を示している。 本研究は、DNNの複雑な因果推論タスクの範囲にまたがって適用し、直接推定が不足し、多段階の学習を必要としている。 例えば、条件平均治療効果と動的治療効果を推定する。 このフレームワークでは、DNNはシーケンシャルに構築され、その後に先行するステージが構築される。 初期推定誤差がその後の推定誤差に与える影響を軽減するため、DNNを二重に頑健な方法で統合する。 従来の研究とは対照的に,本研究では,DNNの有効性に関する理論的保証を提供する。 これらの発見は独立して重要であり、単一段階の学習問題を退化させる。

Deep neural networks (DNNs) have demonstrated remarkable empirical performance in large-scale supervised learning problems, particularly in scenarios where both the sample size $n$ and the dimension of covariates $p$ are large. This study delves into the application of DNNs across a wide spectrum of intricate causal inference tasks, where direct estimation falls short and necessitates multi-stage learning. Examples include estimating the conditional average treatment effect and dynamic treatment effect. In this framework, DNNs are constructed sequentially, with subsequent stages building upon preceding ones. To mitigate the impact of estimation errors from early stages on subsequent ones, we integrate DNNs in a doubly robust manner. In contrast to previous research, our study offers theoretical assurances regarding the effectiveness of DNNs in settings where the dimensionality $p$ expands with the sample size. These findings are significant independently and extend to degenerate single-stage learning problems.
翻訳日:2024-07-12 17:00:06 公開日:2024-07-11
# MapLocNet:ナビゲーションマップにおける視覚的再ローカライゼーションのための粗大な機能登録

MapLocNet: Coarse-to-Fine Feature Registration for Visual Re-Localization in Navigation Maps ( http://arxiv.org/abs/2407.08561v1 )

ライセンス: Link先を確認
Hang Wu, Zhenghao Zhang, Siyuan Lin, Xiangru Mu, Qiang Zhao, Ming Yang, Tong Qin, (参考訳) ロバストなローカライゼーションは、特にGPS信号がマルチパスエラーに悩まされる都市環境では、自動運転の基盤となっている。 伝統的なローカライゼーションアプローチは、正確に注釈付けされたランドマークからなる高定義(HD)マップに依存している。 しかし、HDマップの構築は高価で、スケールアップは困難である。 これらの制限から、ナビゲーションマップの利用はローカライゼーションのための有望な低コストな代替手段として現れてきた。 ナビゲーションマップに基づく現在のアプローチは、高精度なローカライゼーションを実現することができるが、その複雑なマッチング戦略は、リアルタイムの要求を満たすのに失敗する、許容できない推論遅延につながる。 これらの制約に対処するために,新しいトランスフォーマーを用いたニューラルリローカライズ手法を提案する。 画像登録にインスパイアされた本手法では,ナビゲーションマップと視覚鳥眼視特徴との間の粗いニューラルネットワーク特徴登録を行う。 提案手法は, 局所化精度が10%/20%, 単一ビューとサラウンドビューの入力設定が30/16 FPS向上したnuScenesとArgoverseの両データセットにおいて, 最先端のOrienterNetを大幅に上回っている。 本研究は,自律運転のためのHDマップフリーなローカライゼーション手法を提案し,コスト効率,信頼性,スケーラブルな運転性能を実現する。

Robust localization is the cornerstone of autonomous driving, especially in challenging urban environments where GPS signals suffer from multipath errors. Traditional localization approaches rely on high-definition (HD) maps, which consist of precisely annotated landmarks. However, building HD map is expensive and challenging to scale up. Given these limitations, leveraging navigation maps has emerged as a promising low-cost alternative for localization. Current approaches based on navigation maps can achieve highly accurate localization, but their complex matching strategies lead to unacceptable inference latency that fails to meet the real-time demands. To address these limitations, we propose a novel transformer-based neural re-localization method. Inspired by image registration, our approach performs a coarse-to-fine neural feature registration between navigation map and visual bird's-eye view features. Our method significantly outperforms the current state-of-the-art OrienterNet on both the nuScenes and Argoverse datasets, which is nearly 10%/20% localization accuracy and 30/16 FPS improvement on single-view and surround-view input settings, separately. We highlight that our research presents an HD-map-free localization method for autonomous driving, offering cost-effective, reliable, and scalable performance in challenging driving environments.
翻訳日:2024-07-12 17:00:06 公開日:2024-07-11
# Vox Populi, Vox AI? 言語モデルを用いてドイツの世論を推定する

Vox Populi, Vox AI? Using Language Models to Estimate German Public Opinion ( http://arxiv.org/abs/2407.08563v1 )

ライセンス: Link先を確認
Leah von der Heyde, Anna-Carolina Haensch, Alexander Wenz, (参考訳) 大規模言語モデル(LLMs)の最近の開発は、LLMが生成する「合成サンプル」が従来の調査を補完するか、置き換えるのかという議論を刺激している。 米国を拠点とする多くの調査は、LCMが調査の回答者を模倣するきっかけとなり、そのうちのいくつかは、回答が調査データと密接に一致していることを発見した。 しかし,各対象個体群とLLMトレーニングデータとの関係に関連するいくつかの文脈的要因が,これらの知見の一般化に影響を及ぼす可能性がある。 本研究では,投票選択の例を用いて,LLMがドイツにおける世論を推定できる範囲について検討した。 我々は,2017年ドイツ縦断選挙研究の回答者の個人特性と一致するペルソナの合成サンプルを生成した。 我々は,LSM GPT-3.5に,各回答者の投票選択を予測するよう依頼し,これらの予測を,集計およびサブグループレベルの調査に基づく評価と比較した。 GPT-3.5は市民の投票選択を正確に予測せず、緑の党と左派に偏見を呈している。 LLMは、パルチザンのような「典型的な」有権者サブグループの傾向を捉えているが、個々の有権者選択を妨げている多面的要因を見逃している。 投票行動のLLMに基づく予測を新たな文脈で検討することにより,LLMが公衆の意見研究に活用できる状況に関する研究の展開に寄与する。 その結果, LLMにおける世論表現の相違が指摘され, 世論評価に応用する際の限界を浮き彫りにした。

The recent development of large language models (LLMs) has spurred discussions about whether LLM-generated "synthetic samples" could complement or replace traditional surveys, considering their training data potentially reflects attitudes and behaviors prevalent in the population. A number of mostly US-based studies have prompted LLMs to mimic survey respondents, with some of them finding that the responses closely match the survey data. However, several contextual factors related to the relationship between the respective target population and LLM training data might affect the generalizability of such findings. In this study, we investigate the extent to which LLMs can estimate public opinion in Germany, using the example of vote choice. We generate a synthetic sample of personas matching the individual characteristics of the 2017 German Longitudinal Election Study respondents. We ask the LLM GPT-3.5 to predict each respondent's vote choice and compare these predictions to the survey-based estimates on the aggregate and subgroup levels. We find that GPT-3.5 does not predict citizens' vote choice accurately, exhibiting a bias towards the Green and Left parties. While the LLM captures the tendencies of "typical" voter subgroups, such as partisans, it misses the multifaceted factors swaying individual voter choices. By examining the LLM-based prediction of voting behavior in a new context, our study contributes to the growing body of research about the conditions under which LLMs can be leveraged for studying public opinion. The findings point to disparities in opinion representation in LLMs and underscore the limitations in applying them for public opinion estimation.
翻訳日:2024-07-12 17:00:06 公開日:2024-07-11
# 大規模言語モデルのキャリアへの関心

The Career Interests of Large Language Models ( http://arxiv.org/abs/2407.08564v1 )

ライセンス: Link先を確認
Meng Hua, Yuan Cheng, Hengshu Zhu, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、基本的なテキスト生成から複雑な人間のようなインタラクションへと進化し、その能力を著しく拡張している。 LLMが職場で重要な責任を負う可能性を考えると、LLMのプロフェッショナルアシスタントとしての能力を探究する必要がある。 本研究は,職業ネットワークの「興味プロファイル」の短期形態を人間であるかのようにLLMに適用し,その仮説的キャリアの興味と能力について検討し,言語変化やモデル進歩とどのように異なるかを検討することで,キャリアの関心の側面に焦点を当てる。 一般線形混合モデルを用いて回答を分析し,LLM,特に社会的・芸術的領域におけるキャリア関心の傾きを明らかにした。 興味深いことに、これらの選好はLSMが高い能力を示した職業と一致しなかった。 心理測定器と高度な統計ツールを用いたこの新しいアプローチは、職業環境への統合に新たな視点を示し、人間のような傾向を強調し、労働力におけるLLMの自己認識と能力的整合性の再評価を促進する。

Recent advancements in Large Language Models (LLMs) have significantly extended their capabilities, evolving from basic text generation to complex, human-like interactions. In light of the possibilities that LLMs could assume significant workplace responsibilities, it becomes imminently necessary to explore LLMs' capacities as professional assistants. This study focuses on the aspect of career interests by applying the Occupation Network's Interest Profiler short form to LLMs as if they were human participants and investigates their hypothetical career interests and competence, examining how these vary with language changes and model advancements. We analyzed the answers using a general linear mixed model approach and found distinct career interest inclinations among LLMs, particularly towards the social and artistic domains. Interestingly, these preferences did not align with the occupations where LLMs exhibited higher competence. This novel approach of using psychometric instruments and sophisticated statistical tools on LLMs unveils fresh perspectives on their integration into professional environments, highlighting human-like tendencies and promoting a reevaluation of LLMs' self-perception and competency alignment in the workforce.
翻訳日:2024-07-12 17:00:06 公開日:2024-07-11
# XYZ ルビー符号:時空における量子誤差補正のための3色図形計算のケースを作成する

The XYZ ruby code: Making a case for a three-colored graphical calculus for quantum error correction in spacetime ( http://arxiv.org/abs/2407.08566v1 )

ライセンス: Link先を確認
Julio C. Magdalena de la Fuente, Josias Old, Alex Townsend-Teague, Manuel Rispler, Jens Eisert, Markus Müller, (参考訳) 新しい量子誤り訂正スキームの解析と開発は、量子コンピューティング研究において最も顕著な課題の1つである。 このような取り組みにおいて、エラー訂正プロトコルの解析と設計の両方において時間力学を明示的に導入することが重要な基盤となっている。 本研究では,任意のクリフォード回路の論理的動作と誤り訂正能力をパウリ測度で捉えるために,テンソルネットワークに基づくグラフィカルフォーマリズムを提案する。 我々は、XYZ ruby コードと呼ばれるトポロジカルサブシステムコードから派生した新しい Floquet コードについて、フォーマリズムを示す。 テンソルネットワークの構成要素の射影対称性に基づいて、パウリフローの枠組みを開発する。 パウリフローは、回路の誤り訂正解析に入る全ての量のグラフィカルな理解を可能にし、メモリや安定性実験のような様々なタイプのQEC実験を含む。 我々は、プロトコルのテンソルネットワーク表現から明確に定義された復号問題を導出し、そのパウリフローのみを安定化器コードや固定回路に依存しない方法で導出する方法について述べる。 重要なことに、このフレームワークはすべてのクリフォードプロトコルに適用され、測定と回路に基づくフォールトトレランスのアプローチの両方を含んでいる。 本手法は2+1dカラーコードと同じ位相位相の動的符号の族に応用し,低オーバヘッド論理ゲートの候補として期待できる。 静的なプロトコルとは対照的に、動的プロトコルは3つの時間ステップごとに論理的パウリ群にZ3自己同型を適用する。 我々は、そのトポロジ的特性のいくつかを強調し、平面配置の背後にある任意の物理学についてコメントする。 最後に、メモリと安定性の両方の実験を行うことで、トーラス上でのXYZ rubyコードの性能をベンチマークし、他のFloquetコードと2+1dカラーコードに匹敵する0.18%の競合する回路レベルのノイズ閾値を求める。

Analyzing and developing new quantum error-correcting schemes is one of the most prominent tasks in quantum computing research. In such efforts, introducing time dynamics explicitly in both analysis and design of error-correcting protocols constitutes an important cornerstone. In this work, we present a graphical formalism based on tensor networks to capture the logical action and error-correcting capabilities of any Clifford circuit with Pauli measurements. We showcase the formalism on new Floquet codes derived from topological subsystem codes, which we call XYZ ruby codes. Based on the projective symmetries of the building blocks of the tensor network we develop a framework of Pauli flows. Pauli flows allow for a graphical understanding of all quantities entering an error correction analysis of a circuit, including different types of QEC experiments, such as memory and stability experiments. We lay out how to derive a well-defined decoding problem from the tensor network representation of a protocol and its Pauli flows alone, independent of any stabilizer code or fixed circuit. Importantly, this framework applies to all Clifford protocols and encompasses both measurement- and circuit-based approaches to fault tolerance. We apply our method to our new family of dynamical codes which are in the same topological phase as the 2+1d color code, making them a promising candidate for low-overhead logical gates. In contrast to its static counterpart, the dynamical protocol applies a Z3 automorphism to the logical Pauli group every three timesteps. We highlight some of its topological properties and comment on the anyon physics behind a planar layout. Lastly, we benchmark the performance of the XYZ ruby code on a torus by performing both memory and stability experiments and find competitive circuit-level noise thresholds of 0.18%, comparable with other Floquet codes and 2+1d color codes.
翻訳日:2024-07-12 17:00:06 公開日:2024-07-11
# 適応パラメトリック活性化

Adaptive Parametric Activation ( http://arxiv.org/abs/2407.08567v1 )

ライセンス: Link先を確認
Konstantinos Panagiotis Alexandridis, Jiankang Deng, Anh Nguyen, Shan Luo, (参考訳) アクティベーション関数はモデル最適化において重要な役割を果たすが、最適選択は依然として不明である。 例えば、シグモイドの活性化は、バランスの取れた分類タスクにおけるデファクトの活性化であるが、不均衡な分類では、頻繁なクラスに対する偏見によって不適切であることが証明される。 本研究では,バランスの取れたネットワークと不均衡なネットワークの両方の分類層と中間層を包括的に統計解析することにより,この現象を深く掘り下げるとともに,アクティベーション関数とデータ分布の整合性を実証的に示し,バランスの取れたタスクと不均衡なタスクの両方のパフォーマンスを向上させる。 そこで本研究では,APA(Adaptive Parametric Activation)関数を提案する。 APAは中間層と注目層の両方に適用でき、ImageNet-LT、iNaturalist2018、Places-LT、CIFAR100-LT、LVIS、ImageNet1K、COCO、V3DETのようなバランスのとれたベンチマークにおいて、最先端のベンチマークを著しく上回っている。 コードはhttps://github.com/kostas1515/AGLUで公開されている。

The activation function plays a crucial role in model optimisation, yet the optimal choice remains unclear. For example, the Sigmoid activation is the de-facto activation in balanced classification tasks, however, in imbalanced classification, it proves inappropriate due to bias towards frequent classes. In this work, we delve deeper in this phenomenon by performing a comprehensive statistical analysis in the classification and intermediate layers of both balanced and imbalanced networks and we empirically show that aligning the activation function with the data distribution, enhances the performance in both balanced and imbalanced tasks. To this end, we propose the Adaptive Parametric Activation (APA) function, a novel and versatile activation function that unifies most common activation functions under a single formula. APA can be applied in both intermediate layers and attention layers, significantly outperforming the state-of-the-art on several imbalanced benchmarks such as ImageNet-LT, iNaturalist2018, Places-LT, CIFAR100-LT and LVIS and balanced benchmarks such as ImageNet1K, COCO and V3DET. The code is available at https://github.com/kostas1515/AGLU.
翻訳日:2024-07-12 17:00:06 公開日:2024-07-11
# 外部からのアプローチ:2次元シーンからの非教師なし3次元物体検出のスケーリング

Approaching Outside: Scaling Unsupervised 3D Object Detection from 2D Scene ( http://arxiv.org/abs/2407.08569v1 )

ライセンス: Link先を確認
Ruiyang Zhang, Hu Zhang, Hang Yu, Zhedong Zheng, (参考訳) 教師なしの3Dオブジェクト検出は、明示的な監督信号なしで、構造化されていない環境のオブジェクトを正確に検出することである。 このタスクは、希少なLiDAR点雲が与えられた場合、しばしば、固有の空間分解能と空間分解能の制限により、遠方または小物体を検出するための妥協された性能をもたらす。 本稿では,LiDARデータと2次元画像を統合して教師なし3次元検出を行い,LiDAR-2D Self-paced Learning (LiSe)と呼ばれる新しい手法を提案する。 我々は、RGB画像がLiDARデータの貴重な補完として機能し、特にLiDARが不足しているオブジェクトに対して、正確な2Dローカライゼーションの手がかりを提供すると主張している。 両モードの特徴を考慮し,適応的サンプリングと弱いモデル集約戦略を取り入れた自己評価学習パイプラインを考案した。 アダプティブサンプリング戦略は、トレーニング中の擬似ラベルの分布を動的に調整し、近くのオブジェクトや大規模なオブジェクトなど、容易に検出されたサンプルを過度に適合させる傾向に対処する。 これにより、様々な物体のスケールと距離をまたいだバランスの取れた学習軌道が確保される。 弱いモデル集約成分は、異なる擬似ラベル分布の下で訓練されたモデルの強度を集約し、堅牢で強力な最終モデルで決定する。 提案したLiSe法の有効性を実験的に評価し,既存の手法と比較して,+7.1% AP$_{BEV}$と+3.4% AP$_{3D}$と+8.3% AP$_{BEV}$と+7.4% AP$_{3D}$を大きく改善した。

The unsupervised 3D object detection is to accurately detect objects in unstructured environments with no explicit supervisory signals. This task, given sparse LiDAR point clouds, often results in compromised performance for detecting distant or small objects due to the inherent sparsity and limited spatial resolution. In this paper, we are among the early attempts to integrate LiDAR data with 2D images for unsupervised 3D detection and introduce a new method, dubbed LiDAR-2D Self-paced Learning (LiSe). We argue that RGB images serve as a valuable complement to LiDAR data, offering precise 2D localization cues, particularly when scarce LiDAR points are available for certain objects. Considering the unique characteristics of both modalities, our framework devises a self-paced learning pipeline that incorporates adaptive sampling and weak model aggregation strategies. The adaptive sampling strategy dynamically tunes the distribution of pseudo labels during training, countering the tendency of models to overfit easily detected samples, such as nearby and large-sized objects. By doing so, it ensures a balanced learning trajectory across varying object scales and distances. The weak model aggregation component consolidates the strengths of models trained under different pseudo label distributions, culminating in a robust and powerful final model. Experimental evaluations validate the efficacy of our proposed LiSe method, manifesting significant improvements of +7.1% AP$_{BEV}$ and +3.4% AP$_{3D}$ on nuScenes, and +8.3% AP$_{BEV}$ and +7.4% AP$_{3D}$ on Lyft compared to existing techniques.
翻訳日:2024-07-12 17:00:06 公開日:2024-07-11
# 多群比例表現

Multi-Group Proportional Representation ( http://arxiv.org/abs/2407.08571v1 )

ライセンス: Link先を確認
Alex Oesterling, Claudio Mayrink Verdun, Carol Xuan Long, Alex Glynn, Lucas Monteiro Paes, Sajani Vithana, Martina Cardone, Flavio P. Calmon, (参考訳) 画像検索と検索タスクは有害なステレオタイプを永続し、文化的アイデンティティを消去し、社会的格差を増幅する。 これらの表現的害を軽減するための現在のアプローチは、少数の(しばしば二進的な)属性によって定義される集団間で取得されたアイテムの数をバランスさせる。 しかし、既存のほとんどの手法は、性別、人種、民族といったグループ属性の組み合わせによって決定される交叉群を見落としている。 交差するグループ間の表現を測定する新しい指標であるMPR(Multi-Group Proportional Representation)を導入する。 我々は,MPRを推定し,理論的保証を提供し,検索においてMPRを確実にするための最適化アルゴリズムを提案する。 MPRの促進に失敗する可能性があることを示す。 重要なこととして、我々の研究は、MPRの最適化がリッチ関数クラスによって指定された複数の交叉群に対してより比例表現をもたらすことを示す。

Image search and retrieval tasks can perpetuate harmful stereotypes, erase cultural identities, and amplify social disparities. Current approaches to mitigate these representational harms balance the number of retrieved items across population groups defined by a small number of (often binary) attributes. However, most existing methods overlook intersectional groups determined by combinations of group attributes, such as gender, race, and ethnicity. We introduce Multi-Group Proportional Representation (MPR), a novel metric that measures representation across intersectional groups. We develop practical methods for estimating MPR, provide theoretical guarantees, and propose optimization algorithms to ensure MPR in retrieval. We demonstrate that existing methods optimizing for equal and proportional representation metrics may fail to promote MPR. Crucially, our work shows that optimizing MPR yields more proportional representation across multiple intersectional groups specified by a rich function class, often with minimal compromise in retrieval accuracy.
翻訳日:2024-07-12 17:00:06 公開日:2024-07-11
# モデル後空間探索による骨格に基づく行動認識のための逆変換性の向上

Boosting Adversarial Transferability for Skeleton-based Action Recognition via Exploring the Model Posterior Space ( http://arxiv.org/abs/2407.08572v1 )

ライセンス: Link先を確認
Yunfeng Diao, Baiqi Wu, Ruixuan Zhang, Xun Yang, Meng Wang, He Wang, (参考訳) 骨格運動はヒトの活動認識(HAR)において重要な役割を果たす。 近年,骨格型HAR(S-HAR)の普遍的脆弱性を特定する攻撃法が提案されている。 しかし、S-HARの対向移動性の研究はほとんど欠落している。 さらに重要なのは、既存の攻撃はすべて未知のS-HARモデル間の転送に苦労していることだ。 我々は、アクション認識器の損失景観が頑丈で鋭いことを観察した。 ロスランドスケープと逆転性の間の先行研究〜\cite{qin2022boosting,wu2020towards} の確立された相関を考えると、ロスランドスケープの平滑化はS-HARの逆転性を改善する可能性があると仮定し、実証的に検証する。 これは、再訓練を必要とせず、サロゲートの集合に対するモデル後部空間を効果的に探索できる新しいデュアルベイズ戦略を提案することで達成される。 さらに、運動多様体に沿った逆例を作成するために、攻撃勾配をベイズ方式の運動力学の情報に組み込む。 ベンチマークデータセット、例えばHDM05とNTU 60で評価すると、平均転送成功率はそれぞれ35.9\%と45.5\%に達する。 対照的に、現在の最先端の骨格攻撃は3.6\%と9.8\%しか達成していない。 高い敵の移動性は、様々なサロゲート、犠牲者、さらには防衛モデルの間で一貫している。 結果の包括的分析を通じて、サロゲートが転送可能性を示す可能性がより高く、将来の研究に光を当てることのできる知見を提供する。

Skeletal motion plays a pivotal role in human activity recognition (HAR). Recently, attack methods have been proposed to identify the universal vulnerability of skeleton-based HAR(S-HAR). However, the research of adversarial transferability on S-HAR is largely missing. More importantly, existing attacks all struggle in transfer across unknown S-HAR models. We observed that the key reason is that the loss landscape of the action recognizers is rugged and sharp. Given the established correlation in prior studies~\cite{qin2022boosting,wu2020towards} between loss landscape and adversarial transferability, we assume and empirically validate that smoothing the loss landscape could potentially improve adversarial transferability on S-HAR. This is achieved by proposing a new post-train Dual Bayesian strategy, which can effectively explore the model posterior space for a collection of surrogates without the need for re-training. Furthermore, to craft adversarial examples along the motion manifold, we incorporate the attack gradient with information of the motion dynamics in a Bayesian manner. Evaluated on benchmark datasets, e.g. HDM05 and NTU 60, the average transfer success rate can reach as high as 35.9\% and 45.5\% respectively. In comparison, current state-of-the-art skeletal attacks achieve only 3.6\% and 9.8\%. The high adversarial transferability remains consistent across various surrogate, victim, and even defense models. Through a comprehensive analysis of the results, we provide insights on what surrogates are more likely to exhibit transferability, to shed light on future research.
翻訳日:2024-07-12 16:50:17 公開日:2024-07-11
# 新規プラスチックPETスキャナーを用いた陽電子消滅による光子の非最大絡み合いの実証

Non-maximal entanglement of photons from positron-electron annihilation demonstrated using a novel plastic PET scanner ( http://arxiv.org/abs/2407.08574v1 )

ライセンス: Link先を確認
P. Moskal, D. Kumar, S. Sharma, E. Y. Beyene, N. Chug, A. Coussat, C. Curceanu, E. Czerwinski, M. Das, K. Dulski, M. Gorgol, B. Jasinska, K. Kacprzak, T. Kaplanoglu, L. Kaplon, K. Klimaszewski, T. Kozik, E. Lisowski, F. Lisowski, W. Mryka, S. Niedzwiecki, S. Parzych, E. P. del Rio, L. Raczynski, M. Radler, R. Y. Shopa, M. Skurzok, E. L. Stepien, P. Tanty, K. Tayefi Ardebili, K. Valsan Eliyan, W. Wislicki, (参考訳) 最新のポジトロン放射トモグラフィ(PET)では、消滅光子の偏光に関する情報は得られていない。 現在のPETシステムは、陽電子消滅から2つの光子の伝播方向を検出することで、陽電子放出放射性同位元素を標識した分子を追跡している。 しかし、消滅光子は、その起源の場所だけでなく、より多くの情報を持っている。 本稿では, プラスチックシンチレータを用いた新しいJ-PETスキャナについて述べる。そこでは, 消滅光子がコンプトン効果を介して主に相互作用し, 光子偏光に関する情報に加えて光子偏光に関する情報を提供する。 理論的には、真空中のポジトロニウムの崩壊による光子は極性化において最大に絡み合っている。 しかし、ポジトロニウムの陽電子が原子に結合した電子と消滅すると、そのような消滅からの光子が最大に絡み合っているかどうかが問題となる。 本研究では,多孔性高分子における陽電子消滅反応から,2つの光子の偏光配向間の相対角の分布を決定する。 アルミニウムと銅の陽電子消滅効果は, 最大エンタングルド光子に対して観測された相関の強度が期待されるのに対して, 結果は有意な偏差を示した。 多孔質高分子では、光子偏光相関は最大エンタングルド光子よりも弱いが、分離可能な光子よりも強いことが示される。 この結果は、アンバーライト樹脂中のアニヒレーションの40%以上が、非最大エンタングル状態につながることを示している。 その結果, 相関の度合いは消滅機構と分子配置に依存することがわかった。 提案するコンプトン相互作用に基づくPETシステムは,新しい診断指標としてPETの偏光相関を探索する上で有望な視点を開くことを期待する。

In the state-of-the-art Positron Emission Tomography (PET), information about the polarization of annihilation photons is not available. Current PET systems track molecules labeled with positron-emitting radioisotopes by detecting the propagation direction of two photons from positron-electron annihilation. However, annihilation photons carry more information than just the site where they originated. Here we present a novel J-PET scanner built from plastic scintillators, in which annihilation photons interact predominantly via the Compton effect, providing information about photon polarization in addition to information on photon direction of propagation. Theoretically, photons from the decay of positronium in a vacuum are maximally entangled in polarization. However, in matter, when the positron from positronium annihilates with the electron bound to the atom, the question arises whether the photons from such annihilation are maximally entangled. In this work, we determine the distribution of the relative angle between polarization orientations of two photons from positron-electron annihilation in a porous polymer. Contrary to prior results for positron annihilation in aluminum and copper, where the strength of observed correlations is as expected for maximally entangled photons, our results show a significant deviation. We demonstrate that in porous polymer, photon polarization correlation is weaker than for maximally entangled photons but stronger than for separable photons. The data indicate that more than 40% of annihilations in Amberlite resin lead to a non-maximally entangled state. Our result indicates the degree of correlation depends on the annihilation mechanism and the molecular arrangement. We anticipate that the introduced Compton interaction-based PET system opens a promising perspective for exploring polarization correlations in PET as a novel diagnostic indicator.
翻訳日:2024-07-12 16:50:17 公開日:2024-07-11
# LLM内部における全真性超平面について

On the Universal Truthfulness Hyperplane Inside LLMs ( http://arxiv.org/abs/2407.08582v1 )

ライセンス: Link先を確認
Junteng Liu, Shiqi Chen, Yu Cheng, Junxian He, (参考訳) 大規模言語モデル(LLM)は様々な分野において顕著な能力を示してきたが、幻覚は依然として重要な課題である。 近年の研究では、内的表現のレンズを通して幻覚を探求し、LLMが事実に忠実であることを示すメカニズムを提唱している。 しかしながら、これらのアプローチはアウト・オブ・ディストリビューション・データへの一般化に失敗することが多く、内部表現パターンが基本的な事実認識を反映しているか、あるいは特定のデータセットの急激な相関にのみ適合するかという懸念につながっている。 本研究では,モデル内の事実的正確かつ誤った出力を区別する普遍的真性超平面が存在するかどうかを考察する。 この目的のために、トレーニングデータセットの数をスケールアップし、広範な評価を行う -- 私たちは、40以上のデータセットの多様なコレクションで真正性ハイパープレーンをトレーニングし、クロスタスク、クロスドメイン、ドメイン内の一般化を調べます。 以上の結果から,トレーニングデータセットの多様性の向上は,すべてのシナリオのパフォーマンスを著しく向上させる一方で,データサンプルのボリュームがより重要でない役割を担っていることが示唆された。 この発見は、普遍真理超平面がモデルの中に実際に存在するかもしれないという楽観的な仮説を支持し、将来の研究に有望な方向を提供する。

While large language models (LLMs) have demonstrated remarkable abilities across various fields, hallucination remains a significant challenge. Recent studies have explored hallucinations through the lens of internal representations, proposing mechanisms to decipher LLMs' adherence to facts. However, these approaches often fail to generalize to out-of-distribution data, leading to concerns about whether internal representation patterns reflect fundamental factual awareness, or only overfit spurious correlations on the specific datasets. In this work, we investigate whether a universal truthfulness hyperplane that distinguishes the model's factually correct and incorrect outputs exists within the model. To this end, we scale up the number of training datasets and conduct an extensive evaluation -- we train the truthfulness hyperplane on a diverse collection of over 40 datasets and examine its cross-task, cross-domain, and in-domain generalization. Our results indicate that increasing the diversity of the training datasets significantly enhances the performance in all scenarios, while the volume of data samples plays a less critical role. This finding supports the optimistic hypothesis that a universal truthfulness hyperplane may indeed exist within the model, offering promising directions for future research.
翻訳日:2024-07-12 16:50:17 公開日:2024-07-11
# データとマルチモーダル大言語モデルの相乗効果:共同開発の視点から

The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective ( http://arxiv.org/abs/2407.08583v1 )

ライセンス: Link先を確認
Zhen Qin, Daoyuan Chen, Wenhao Zhang, Liuyi Yao, Yilun Huang, Bolin Ding, Yaliang Li, Shuiguang Deng, (参考訳) 大規模言語モデル(LLM)の急速な発展は近年観察されている。 強力なLLMに基づいて、マルチモーダルLLM(MLLM)はテキストから広い範囲のドメインにモダリティを拡張し、幅広いアプリケーションシナリオのために広く注目を集めている。 LLMとMLLMは、創発的な能力を達成するために大量のモデルパラメータとデータに依存しているため、データの重要性はますます注目を集め、認識されている。 MLLMの最近のデータ指向処理の追跡と解析により、モデルとデータの開発は2つの別々の経路ではなく、むしろ相互接続であることがわかった。 一方,MLLMの性能向上には,大規模かつ高品質なデータが寄与する一方,MLLMはデータの開発を促進することができる。 マルチモーダルデータとMLLMの共同開発には明確な視点が必要である 1)MLLMの開発段階は、特定のデータ中心のアプローチを用いて、その能力を高めることができる。 2)マルチモーダルデータにどの機能を活用し、どの役割をモデルが貢献できるかを判断する。 MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。 この調査に関連する定期的なプロジェクトはhttps://github.com/modelscope/data-juicer/blob/main/docs/awesome_llm_data.mdで見ることができる。

The rapid development of large language models (LLMs) has been witnessed in recent years. Based on the powerful LLMs, multi-modal LLMs (MLLMs) extend the modality from text to a broader spectrum of domains, attracting widespread attention due to the broader range of application scenarios. As LLMs and MLLMs rely on vast amounts of model parameters and data to achieve emergent capabilities, the importance of data is receiving increasingly widespread attention and recognition. Tracing and analyzing recent data-oriented works for MLLMs, we find that the development of models and data is not two separate paths but rather interconnected. On the one hand, vaster and higher-quality data contribute to better performance of MLLMs, on the other hand, MLLMs can facilitate the development of data. The co-development of multi-modal data and MLLMs requires a clear view of 1) at which development stage of MLLMs can specific data-centric approaches be employed to enhance which capabilities, and 2) by utilizing which capabilities and acting as which roles can models contribute to multi-modal data. To promote the data-model co-development for MLLM community, we systematically review existing works related to MLLMs from the data-model co-development perspective. A regularly maintained project associated with this survey is accessible at https://github.com/modelscope/data-juicer/blob/main/docs/awesome_llm_data.md.
翻訳日:2024-07-12 16:50:17 公開日:2024-07-11
# HACMan++: 操作のための空間的に取り囲むモーションプリミティブ

HACMan++: Spatially-Grounded Motion Primitives for Manipulation ( http://arxiv.org/abs/2407.08585v1 )

ライセンス: Link先を確認
Bowen Jiang, Yilin Wu, Wenxuan Zhou, Chris Paxton, David Held, (参考訳) エンドツーエンドのロボット学習は、ロボット操作においていくつかの成功を示しているが、学習されたポリシーは、オブジェクトのポーズや幾何学のバリエーションに対して十分に堅牢ではないことが多い。 政策一般化を改善するため,提案手法であるHACMan++に空間的パラメータ化動作プリミティブを導入する。 具体的には、どのプリミティブタイプ(グリップやプッシュなど)を実行するか、プリミティブが接地される場所(例えば、グリップが世界と接触する場所)、そして、プッシュ方向を指定するパラメータや方向を把握するパラメータなど、プリミティブモーションがどのように実行されるかという3つのコンポーネントからなるアクション表現を提案する。 これら3つの構成要素は、強化学習のための新しい離散連続アクション空間を定義する。 我々のフレームワークは,ロボットエージェントが多様な動作プリミティブをチェーンして学習し,長期操作タスクを完了するための適切なプリミティブパラメータを選択することを可能にする。 環境中の空間的位置にプリミティブを接地することで、オブジェクトの形状を効果的に一般化し、バリエーションを表現できる。 提案手法は既存の手法,特に高レベルシーケンシャル推論とオブジェクト一般化の両方を必要とする複雑なシナリオにおいて,優れた性能を発揮する。 ゼロショット sim-to-real 転送では、我々のポリシーは、目に見えないオブジェクトに一般化しながら、現実世界の操作タスクに挑戦することに成功します。 ビデオはプロジェクトのWebサイト(https://sgmp-rss2024.github.io)で見ることができる。

Although end-to-end robot learning has shown some success for robot manipulation, the learned policies are often not sufficiently robust to variations in object pose or geometry. To improve the policy generalization, we introduce spatially-grounded parameterized motion primitives in our method HACMan++. Specifically, we propose an action representation consisting of three components: what primitive type (such as grasp or push) to execute, where the primitive will be grounded (e.g. where the gripper will make contact with the world), and how the primitive motion is executed, such as parameters specifying the push direction or grasp orientation. These three components define a novel discrete-continuous action space for reinforcement learning. Our framework enables robot agents to learn to chain diverse motion primitives together and select appropriate primitive parameters to complete long-horizon manipulation tasks. By grounding the primitives on a spatial location in the environment, our method is able to effectively generalize across object shape and pose variations. Our approach significantly outperforms existing methods, particularly in complex scenarios demanding both high-level sequential reasoning and object generalization. With zero-shot sim-to-real transfer, our policy succeeds in challenging real-world manipulation tasks, with generalization to unseen objects. Videos can be found on the project website: https://sgmp-rss2024.github.io.
翻訳日:2024-07-12 16:50:17 公開日:2024-07-11
# 強化学習研究のための9つの物理エンジンのレビュー

A Review of Nine Physics Engines for Reinforcement Learning Research ( http://arxiv.org/abs/2407.08590v1 )

ライセンス: Link先を確認
Michael Kaup, Cornelius Wolff, Hyerim Hwang, Julius Mayer, Elia Bruni, (参考訳) 本稿では、強化学習(RL)研究に使用される一般的なシミュレーションエンジンとフレームワークについてレビューし、RLのシミュレーション物理環境とトレーニング環境を構築するためのツールの選択を研究者に指導することを目的とする。 9つのフレームワーク(Brax、Chrono、Gazebo、MuJoCo、ODE、PhysX、PyBullet、Webots、Unity)を、その人気、機能範囲、品質、ユーザビリティ、RL機能に基づいて評価している。 我々は、RL研究のための物理エンジンの選択と利用の課題を強調し、詳細な比較と各フレームワークの機能の理解の必要性について述べる。 主な発見は、ユーザビリティの課題にもかかわらず、そのパフォーマンスと柔軟性のために、MuJoCoが主要なフレームワークであることを示している。 Unityは使いやすさで有名だが、スケーラビリティとシミュレーションの忠実さに欠ける。 この研究は、シミュレーションエンジンのユーザビリティと性能を改善するためのさらなる開発を求め、RL研究における透明性と再現性の重要性を強調している。 このレビューは、シミュレーションエンジンの選択プロセスに関する洞察を提供することで、RLコミュニティに貢献し、情報的な意思決定を促進する。

We present a review of popular simulation engines and frameworks used in reinforcement learning (RL) research, aiming to guide researchers in selecting tools for creating simulated physical environments for RL and training setups. It evaluates nine frameworks (Brax, Chrono, Gazebo, MuJoCo, ODE, PhysX, PyBullet, Webots, and Unity) based on their popularity, feature range, quality, usability, and RL capabilities. We highlight the challenges in selecting and utilizing physics engines for RL research, including the need for detailed comparisons and an understanding of each framework's capabilities. Key findings indicate MuJoCo as the leading framework due to its performance and flexibility, despite usability challenges. Unity is noted for its ease of use but lacks scalability and simulation fidelity. The study calls for further development to improve simulation engines' usability and performance and stresses the importance of transparency and reproducibility in RL research. This review contributes to the RL community by offering insights into the selection process for simulation engines, facilitating informed decision-making.
翻訳日:2024-07-12 16:50:17 公開日:2024-07-11
# 合成入力出力ペアによるプログラム行動モデル学習

Learning Program Behavioral Models from Synthesized Input-Output Pairs ( http://arxiv.org/abs/2407.08597v1 )

ライセンス: Link先を確認
Tural Mammadov, Dietrich Klakow, Alexander Koller, Andreas Zeller, (参考訳) ブラックボックスプログラムが与えられたら、_neural machine translation_を使って入出力動作_から_modelを学習する新しいフレームワークであるModelizerを紹介します。 結果のモデル_mocks_ 元のプログラム: 入力が与えられたら、そのプログラムが生成したであろう出力を予測する。 しかし、モデルもまた_reversible_である。つまり、モデルは与えられた出力を生成したであろう入力を予測することができる。 最後に、モデルは_differentiable_で、プログラムの振る舞いの特定の側面のみを予測するために効率的に制限することができる。 Modelizerは_grammars_を使って入力を合成し、結果の出力を解析し、トークンストリーム間のシーケンスとシーケンスの関連を学習する。 入力と出力の文法以外は、Modelizerはプログラムを実行する能力だけを必要とする。 結果として得られたモデルは_small_で、MarkdownやHTMLのような言語では630万のパラメータを必要とせず、_accurate_で95.4%の精度で、BLEUスコアは0.98で、現実世界のアプリケーションでは標準エラー0.04である。 我々はこれらのモデルのいくつかの_applications_を予測し、特にプログラムの出力がプログラムの振舞いのあらゆる側面であることを示す。 プログラムの振る舞いのモック化や予測に加えて、モデルでは、障害やカバレッジといった特定の振る舞いを生成する可能性のある入力を合成することもできる。

We introduce Modelizer - a novel framework that, given a black-box program, learns a _model from its input/output behavior_ using _neural machine translation_. The resulting model _mocks_ the original program: Given an input, the model predicts the output that would have been produced by the program. However, the model is also _reversible_ - that is, the model can predict the input that would have produced a given output. Finally, the model is _differentiable_ and can be efficiently restricted to predict only a certain aspect of the program behavior. Modelizer uses _grammars_ to synthesize inputs and to parse the resulting outputs, allowing it to learn sequence-to-sequence associations between token streams. Other than input and output grammars, Modelizer only requires the ability to execute the program. The resulting models are _small_, requiring fewer than 6.3 million parameters for languages such as Markdown or HTML; and they are _accurate_, achieving up to 95.4% accuracy and a BLEU score of 0.98 with standard error 0.04 in mocking real-world applications. We foresee several _applications_ of these models, especially as the output of the program can be any aspect of program behavior. Besides mocking and predicting program behavior, the model can also synthesize inputs that are likely to produce a particular behavior, such as failures or coverage.
翻訳日:2024-07-12 16:50:17 公開日:2024-07-11
# 心理指標を用いたターンレベル共感予測

Turn-Level Empathy Prediction Using Psychological Indicators ( http://arxiv.org/abs/2407.08607v1 )

ライセンス: Link先を確認
Shaz Furniturewala, Kokil Jaidka, (参考訳) WASSA 2024 共感とパーソナリティ予測共有タスクでは,共感を感情言語,パースペクティブ・テイキング,共感と思いやり,外向性,開放性,積極性という6つの心理的指標に分解するターンレベルの共感検出手法を提案する。 大規模言語モデル(LLM)とDeBERTAファインタニングによるテキスト強化のパイプラインは、共感検出のためのピアソン相関係数とF1スコアを大幅に改善し、我々のアプローチの有効性を強調している。 我々のシステムは公式にCONVターントラックで7位にランクインした。

For the WASSA 2024 Empathy and Personality Prediction Shared Task, we propose a novel turn-level empathy detection method that decomposes empathy into six psychological indicators: Emotional Language, Perspective-Taking, Sympathy and Compassion, Extroversion, Openness, and Agreeableness. A pipeline of text enrichment using a Large Language Model (LLM) followed by DeBERTA fine-tuning demonstrates a significant improvement in the Pearson Correlation Coefficient and F1 scores for empathy detection, highlighting the effectiveness of our approach. Our system officially ranked 7th at the CONV-turn track.
翻訳日:2024-07-12 16:50:17 公開日:2024-07-11
# FlashAttention-3: 非同期と低精度で高速で正確な注意

FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision ( http://arxiv.org/abs/2407.08608v1 )

ライセンス: Link先を確認
Jay Shah, Ganesh Bikshandi, Ying Zhang, Vijay Thakkar, Pradeep Ramani, Tri Dao, (参考訳) ユビキタストランスフォーマーアーキテクチャのコアレイヤとしての注意は、大規模言語モデルと長期コンテキストアプリケーションのボトルネックとなる。 FlashAttentionは、メモリ読み込み/書き込みを最小化することでGPUの注意を加速するアプローチを詳しく説明した。 しかし、FlashAttention-2はH100 GPUでわずか35%しか利用できないため、最近のハードウェアで見られる新機能をまだ活用していない。 1)ワープ特殊化による全体的な計算とデータ移動の重なり、(2)ブロックワイドの行列とソフトマックス演算のインターリーブ、(3)FP8のハードウェアサポートを利用するブロック量子化と不整合処理である。 提案手法であるFlashAttention-3は,FP16が740 TFLOPs/s (75%) に達し,FP8が1.2 PFLOPs/sに近づき,H100 GPUの1.5-2.0$\times$が高速化されることを示す。 我々はFP8 FlashAttention-3がベースラインFP8よりも2.6$\times$低い数値誤差を達成したことを検証する。

Attention, as a core layer of the ubiquitous Transformer architecture, is the bottleneck for large language models and long-context applications. FlashAttention elaborated an approach to speed up attention on GPUs through minimizing memory reads/writes. However, it has yet to take advantage of new capabilities present in recent hardware, with FlashAttention-2 achieving only 35% utilization on the H100 GPU. We develop three main techniques to speed up attention on Hopper GPUs: exploiting asynchrony of the Tensor Cores and TMA to (1) overlap overall computation and data movement via warp-specialization and (2) interleave block-wise matmul and softmax operations, and (3) block quantization and incoherent processing that leverages hardware support for FP8 low-precision. We demonstrate that our method, FlashAttention-3, achieves speedup on H100 GPUs by 1.5-2.0$\times$ with FP16 reaching up to 740 TFLOPs/s (75% utilization), and with FP8 reaching close to 1.2 PFLOPs/s. We validate that FP8 FlashAttention-3 achieves 2.6$\times$ lower numerical error than a baseline FP8 attention.
翻訳日:2024-07-12 16:50:17 公開日:2024-07-11
# BiasPruner: 医用画像分類のための非バイアス型継続的学習

BiasPruner: Debiased Continual Learning for Medical Image Classification ( http://arxiv.org/abs/2407.08609v1 )

ライセンス: Link先を確認
Nourhan Bayasi, Jamil Fayyad, Alceu Bissoto, Ghassan Hamarneh, Rafeef Garbi, (参考訳) 連続学習(CL)は、ネットワークが新しいタスクを逐次学習し、破滅的な忘れをせずに新しいデータやクラスを収容し、動的に適応できるようにするために不可欠である。 本報告では,従来のCLの視点から外れて,逐次学習パラダイムを実際に活用する上で,忘れることが有用である,という新たな視点を紹介する。 具体的には、学習のショートカットにつながる可能性のあるトレーニングデータの急激な相関を意図的に忘れるCLフレームワークであるBiasPrunerを紹介する。 BiasPrunerは、ネットワーク内の各ユニットの素早い特徴の学習への貢献を測定する新しいバイアススコアを利用して、それらのユニットに最高のバイアススコアを与え、与えられたタスクのために保存されたバイアスのないサブネットを形成する。 BiasPrunerが新しいタスクを学ぶと、新しい非バイアスのサブネットワークを構築し、以前のサブネットワークからのユニットを組み込むことで、新しいタスクへの適応とパフォーマンスを向上させる。 推論中、BiasPrunerは予測に最適なバイアス付きサブネットワークを選択するために単純なタスクに依存しないアプローチを採用している。 皮膚病変分類と胸部X線分類の3つの医学データセットについて実験を行い,BiasPrunerがSOTA CL法を常に上回っていることを示す。 私たちのコードはここにある。

Continual Learning (CL) is crucial for enabling networks to dynamically adapt as they learn new tasks sequentially, accommodating new data and classes without catastrophic forgetting. Diverging from conventional perspectives on CL, our paper introduces a new perspective wherein forgetting could actually benefit the sequential learning paradigm. Specifically, we present BiasPruner, a CL framework that intentionally forgets spurious correlations in the training data that could lead to shortcut learning. Utilizing a new bias score that measures the contribution of each unit in the network to learning spurious features, BiasPruner prunes those units with the highest bias scores to form a debiased subnetwork preserved for a given task. As BiasPruner learns a new task, it constructs a new debiased subnetwork, potentially incorporating units from previous subnetworks, which improves adaptation and performance on the new task. During inference, BiasPruner employs a simple task-agnostic approach to select the best debiased subnetwork for predictions. We conduct experiments on three medical datasets for skin lesion classification and chest X-Ray classification and demonstrate that BiasPruner consistently outperforms SOTA CL methods in terms of classification performance and fairness. Our code is available here.
翻訳日:2024-07-12 16:50:17 公開日:2024-07-11
# 重複映像に基づくバグレポート検出のための意味的GUIシーン学習とビデオアライメント

Semantic GUI Scene Learning and Video Alignment for Detecting Duplicate Video-based Bug Reports ( http://arxiv.org/abs/2407.08610v1 )

ライセンス: Link先を確認
Yanfu Yan, Nathan Cooper, Oscar Chaparro, Kevin Moran, Denys Poshyvanyk, (参考訳) ビデオベースのバグレポートは、グラフィカルユーザインタフェース(GUI)を中心としたプログラムのバグの文書化にますます利用されている。 しかし、ビデオベースのレポートを管理する自動化技術の開発は、報告されたバグに関する重要な情報をキャプチャする、しばしば曖昧な視覚パターンを特定し理解する必要があるため、難しい。 本稿では,ビデオレポートの重複検出のバグレポート管理タスクを推進し,これらの課題を克服することを目的とする。 この目的のために、私たちはJANUSと呼ばれる新しいアプローチを導入しました。これは、視覚変換器のシーン学習機能を適用して、アプリのUI画面に現れる微妙な視覚的およびテキスト的パターンをキャプチャします。 JANUSはまた、ビデオフレームの適応重み付けが可能なビデオアライメント技術を使用して、典型的なバグの出現パターンを考慮している。 90のAndroidアプリバグから270の動画ベースのバグレポートから引き出された7,290の重複検出タスクを含むベンチマークの総合的な評価では、我々のアプローチの最良の構成は、全体のmRR/mAPが89.8%/84.7%に達し、重複検出タスクの大多数では、前処理を約9%、統計的に有意な程度に上回っている。 最後に、Janusが提供するシーン学習能力がパフォーマンスにどのような影響を与えるかを質的に説明します。

Video-based bug reports are increasingly being used to document bugs for programs centered around a graphical user interface (GUI). However, developing automated techniques to manage video-based reports is challenging as it requires identifying and understanding often nuanced visual patterns that capture key information about a reported bug. In this paper, we aim to overcome these challenges by advancing the bug report management task of duplicate detection for video-based reports. To this end, we introduce a new approach, called JANUS, that adapts the scene-learning capabilities of vision transformers to capture subtle visual and textual patterns that manifest on app UI screens - which is key to differentiating between similar screens for accurate duplicate report detection. JANUS also makes use of a video alignment technique capable of adaptive weighting of video frames to account for typical bug manifestation patterns. In a comprehensive evaluation on a benchmark containing 7,290 duplicate detection tasks derived from 270 video-based bug reports from 90 Android app bugs, the best configuration of our approach achieves an overall mRR/mAP of 89.8%/84.7%, and for the large majority of duplicate detection tasks, outperforms prior work by around 9% to a statistically significant degree. Finally, we qualitatively illustrate how the scene-learning capabilities provided by Janus benefits its performance.
翻訳日:2024-07-12 16:50:17 公開日:2024-07-11
# 量子トレイン長短期記憶:洪水予測問題への応用

Quantum-Train Long Short-Term Memory: Application on Flood Prediction Problem ( http://arxiv.org/abs/2407.08617v1 )

ライセンス: Link先を確認
Chu-Hsuan Abraham Lin, Chen-Yu Liu, Kuan-Cheng Chen, (参考訳) 洪水予測は気候変動の文脈において重要な課題であり、生態系の保全、人間の安全、インフラの保護に重大な影響を及ぼす。 本研究では,量子機械学習(QML)により学習された予測長短期記憶(LSTM)モデルに量子トレイン(QT)手法を適用し,パラメータの大幅な削減を図り,この問題に対処する。 QTテクニックは、QHack 2024のA Matter of Tasteチャレンジで成功したもので、トレーニング可能なパラメータの数を古典的ニューラルネットワーク(NN)のパラメータ数の多対数関数に還元するために、QMLを活用する。 この革新的なフレームワークは古典的NN重みをヒルベルト空間にマッピングし、量子状態確率分布を変化させてNNパラメータを調整する。 提案手法は, 量子埋め込みを必要とせずに, 従来のデータを直接処理し, トレーニング後の量子コンピューティングリソースとは独立に動作させることで, 実世界の洪水予測アプリケーションにおいて, 極めて実用的でアクセスしやすいものである。 このモデルは洪水予測の効率を向上させることを目的としており、最終的に災害対策と対応の改善に寄与する。

Flood prediction is a critical challenge in the context of climate change, with significant implications for ecosystem preservation, human safety, and infrastructure protection. In this study, we tackle this problem by applying the Quantum-Train (QT) technique to a forecasting Long Short-Term Memory (LSTM) model trained by Quantum Machine Learning (QML) with significant parameter reduction. The QT technique, originally successful in the A Matter of Taste challenge at QHack 2024, leverages QML to reduce the number of trainable parameters to a polylogarithmic function of the number of parameters in a classical neural network (NN). This innovative framework maps classical NN weights to a Hilbert space, altering quantum state probability distributions to adjust NN parameters. Our approach directly processes classical data without the need for quantum embedding and operates independently of quantum computing resources post-training, making it highly practical and accessible for real-world flood prediction applications. This model aims to improve the efficiency of flood forecasts, ultimately contributing to better disaster preparedness and response.
翻訳日:2024-07-12 16:50:17 公開日:2024-07-11
# タミル語コンピューティングの現状と将来

Tamil Language Computing: the Present and the Future ( http://arxiv.org/abs/2407.08618v1 )

ライセンス: Link先を確認
Kengatharaiyer Sarveswaran, (参考訳) 本稿では、コンピュータが人間の言語を理解し、解釈し、生成できるようにするLanguage Computingのテキスト処理の側面について述べる。 音声認識、機械翻訳、感情分析、テキスト要約、言語モデリングといったタスクに焦点を当てた言語コンピューティングは、言語学、コンピュータ科学、認知心理学などの分野を統合し、有意義な人間とコンピュータの相互作用を生み出す。 近年のディープラーニングの進歩により、コンピュータはよりアクセスしやすくなり、独立した学習と適応が可能になった。 言語コンピューティングの状況を調べる上で、この論文は、タミルがASCIIからUnicodeに移行し、デジタル通信を強化したエンコーディングのような基礎的な作業を強調している。 効率的な言語処理に必要な生データ、辞書、用語集、注釈付きデータ、計算文法などの計算資源の開発について論じる。 言語アノテーションの課題、ツリーバンクの作成、および大規模言語モデルの訓練についても取り上げ、高品質で注釈付きデータや高度な言語モデルの必要性を強調している。 この論文は、日々のコミュニケーションのニーズに対応するために、Tamilのような言語のための実用的なアプリケーションを構築することの重要性を強調し、現在の技術のギャップを強調している。 研究協力の強化、歴史文書のデジタル化、タミル語処理の包括的な開発を保証するためのデジタル利用の促進、そして最終的にはグローバルなコミュニケーションとデジタルサービスへのアクセスを強化することを求めている。

This paper delves into the text processing aspects of Language Computing, which enables computers to understand, interpret, and generate human language. Focusing on tasks such as speech recognition, machine translation, sentiment analysis, text summarization, and language modelling, language computing integrates disciplines including linguistics, computer science, and cognitive psychology to create meaningful human-computer interactions. Recent advancements in deep learning have made computers more accessible and capable of independent learning and adaptation. In examining the landscape of language computing, the paper emphasises foundational work like encoding, where Tamil transitioned from ASCII to Unicode, enhancing digital communication. It discusses the development of computational resources, including raw data, dictionaries, glossaries, annotated data, and computational grammars, necessary for effective language processing. The challenges of linguistic annotation, the creation of treebanks, and the training of large language models are also covered, emphasising the need for high-quality, annotated data and advanced language models. The paper underscores the importance of building practical applications for languages like Tamil to address everyday communication needs, highlighting gaps in current technology. It calls for increased research collaboration, digitization of historical texts, and fostering digital usage to ensure the comprehensive development of Tamil language processing, ultimately enhancing global communication and access to digital services.
翻訳日:2024-07-12 16:50:17 公開日:2024-07-11
# Pauli-Fierz Hamiltonian を用いた光学キャビティ中の水素原子とHe+イオンの記述

Description of the hydrogen atom and the He+ ion in an optical cavity using the Pauli-Fierz Hamiltonian ( http://arxiv.org/abs/2407.08619v1 )

ライセンス: Link先を確認
Yetmgeta Aklilu, Kálmán Varga, (参考訳) 光キャビティ内のクーロン電位における1つの電子の系は、テンソル生成光マターベースを用いて解決される。 この問題は、パウリ・フィエルツ・ハミルトニアンのレベルで、光と物質の両方を量子力学的に記述した。 キャビティサイズがエネルギーレベルおよび高調波発生(HHG)スペクトルに及ぼす影響について検討した。 我々は,エネルギーレベル,遷移状態,絡み合い,HHGスペクトルがキャビティサイズを変化させることによって強く影響できることを示した。

A system of one electron in a Coulomb potential in an optical cavity is solved using a tensor-product light-matter basis. The problem was treated at the level of the Pauli-Fierz Hamiltonian describing both light and matter quantum mechanically. The effect of cavity size on the energy levels and high harmonics generation (HHG) spectrum is studied. We have shown that the energy levels, transition states, entanglement, and the HHG spectrum can be strongly influenced by changing the cavity size.
翻訳日:2024-07-12 16:50:17 公開日:2024-07-11
# 多次元比較のためのSurpassing Cosine similarity: Dimension Insensitive Euclidean Metric (DIEM)

Surpassing Cosine Similarity for Multidimensional Comparisons: Dimension Insensitive Euclidean Metric (DIEM) ( http://arxiv.org/abs/2407.08623v1 )

ライセンス: Link先を確認
Federico Tessari, Neville Hogan, (参考訳) 計算能力とハードウェア効率の進歩により、ますます複雑で高次元の問題に取り組むことが可能になった。 人工知能(AI)は様々な科学・技術分野において顕著な成果を上げてきたが、これらの高次元解の解釈可能性はまだ困難である。 この文脈における重要な問題は多次元量の比較であり、主成分分析(PCA)、特異値分解(SVD)、k平均クラスタリング(k-means clustering)といった技術に必須である。 コサインの類似性、ユークリッド距離、マンハッタン距離といった一般的な指標は、例えばヒトの運動制御系の筋シナジーにおいて、このような比較にしばしば用いられる。 しかし、その適用性と解釈性は次元が増加するにつれて低下する。 本稿では,これら3つの広く使用されている指標に対する次元の影響を包括的に分析する。 以上の結果から,コサイン類似性,特にベクトルの次元依存性の著しい限界が明らかとなり,バイアスや解釈不可能な結果が得られた。 これを解決するために、ユークリッド距離から導かれる次元非感性ユークリッド距離(DIEM)を導入し、様々な次元にわたって優れた堅牢性と一般化性を示す。 DIEMは、一貫した変動性を維持し、従来のメトリクスで観測されたバイアスを排除し、高次元比較のためのより信頼性の高いツールとなる。 この新しい計量はコサインの類似性を置き換える可能性があり、神経運動制御から機械学習、ディープラーニングに至るまでの分野における多次元データをより正確で洞察に富んだ分析方法を提供する。

The advancement in computational power and hardware efficiency has enabled the tackling of increasingly complex and high-dimensional problems. While artificial intelligence (AI) has achieved remarkable results in various scientific and technological fields, the interpretability of these high-dimensional solutions remains challenging. A critical issue in this context is the comparison of multidimensional quantities, which is essential in techniques like Principal Component Analysis (PCA), Singular Value Decomposition (SVD), and k-means clustering. Common metrics such as cosine similarity, Euclidean distance, and Manhattan distance are often used for such comparisons - for example in muscular synergies of the human motor control system. However, their applicability and interpretability diminish as dimensionality increases. This paper provides a comprehensive analysis of the effects of dimensionality on these three widely used metrics. Our results reveal significant limitations of cosine similarity, particularly its dependency on the dimensionality of the vectors, leading to biased and less interpretable outcomes. To address this, we introduce the Dimension Insensitive Euclidean Metric (DIEM), derived from the Euclidean distance, which demonstrates superior robustness and generalizability across varying dimensions. DIEM maintains consistent variability and eliminates the biases observed in traditional metrics, making it a more reliable tool for high-dimensional comparisons. This novel metric has the potential to replace cosine similarity, providing a more accurate and insightful method to analyze multidimensional data in fields ranging from neuromotor control to machine learning and deep learning.
翻訳日:2024-07-12 16:50:17 公開日:2024-07-11
# 深部神経回路を意識した細胞形態を用いた病理組織像分類

Histopathological Image Classification with Cell Morphology Aware Deep Neural Networks ( http://arxiv.org/abs/2407.08625v1 )

ライセンス: Link先を確認
Andrey Ignatov, Josephine Yates, Valentina Boeva, (参考訳) 病理組織像は疾患(腫瘍)組織の解析や治療選択に広く用いられている。 顕微鏡画像処理の大半は、これまでは病理学者が手動で行っていたが、近年のコンピュータビジョンの進歩により、深層学習によるソリューションによる病変領域の正確な認識が可能になった。 しかし、そのようなモデルは通常、トレーニングのために広範囲なアノテートデータセットを必要とするが、多くの場合、利用可能な患者データサンプルの数が非常に限られているため、考慮すべきタスクではそうではない。 この問題に対処するために,細胞形態を学習し,多数の異なるがんタイプを特定するために事前訓練された新しいDeepCMorphモデルを提案する。 モデルは2つのモジュールで構成されており、最初のモジュールは細胞核のセグメンテーションを実行し、各細胞タイプに注釈を付け、その高い一般化性と堅牢性を確保するために8つの公開データセットの組み合わせで訓練される。 第2モジュールは、得られたセグメンテーションマップと元の顕微鏡画像を組み合わせて、下流タスクのために訓練する。 7175例の8736症例から抽出した270K以上の組織から抽出したPan-Cancer TCGAデータセット上で,本モジュールを事前訓練した。 提案手法は, 82%以上の精度で32種類の癌を検出でき, 従来提案されていたすべてのソリューションを4%以上上回る性能を示した。 得られた事前学習モデルは、より小さな顕微鏡データセットで容易に微調整でき、現在のトップソリューションやImageNet重み付き初期化モデルよりも優れた結果が得られることを示した。 本論文で提示されたコードと事前訓練済みモデルは以下の通りである。

Histopathological images are widely used for the analysis of diseased (tumor) tissues and patient treatment selection. While the majority of microscopy image processing was previously done manually by pathologists, recent advances in computer vision allow for accurate recognition of lesion regions with deep learning-based solutions. Such models, however, usually require extensive annotated datasets for training, which is often not the case in the considered task, where the number of available patient data samples is very limited. To deal with this problem, we propose a novel DeepCMorph model pre-trained to learn cell morphology and identify a large number of different cancer types. The model consists of two modules: the first one performs cell nuclei segmentation and annotates each cell type, and is trained on a combination of 8 publicly available datasets to ensure its high generalizability and robustness. The second module combines the obtained segmentation map with the original microscopy image and is trained for the downstream task. We pre-trained this module on the Pan-Cancer TCGA dataset consisting of over 270K tissue patches extracted from 8736 diagnostic slides from 7175 patients. The proposed solution achieved a new state-of-the-art performance on the dataset under consideration, detecting 32 cancer types with over 82% accuracy and outperforming all previously proposed solutions by more than 4%. We demonstrate that the resulting pre-trained model can be easily fine-tuned on smaller microscopy datasets, yielding superior results compared to the current top solutions and models initialized with ImageNet weights. The codes and pre-trained models presented in this paper are available at: https://github.com/aiff22/DeepCMorph
翻訳日:2024-07-12 16:40:31 公開日:2024-07-11
# RoboMorph:大規模言語モデルを用いたロボット形態の進化

RoboMorph: Evolving Robot Morphology using Large Language Models ( http://arxiv.org/abs/2407.08626v1 )

ライセンス: Link先を確認
Kevin Qiu, Krzysztof Ciebiera, Paweł Fijałkowski, Marek Cygan, Łukasz Kuciński, (参考訳) 本稿では,大規模言語モデル(LLM)と進化的アルゴリズムを用いたモジュール型ロボット設計の自動生成と最適化手法であるRoboMorphを紹介する。 本フレームワークでは,各ロボット設計を文法として表現し,LLMの能力を活用して,従来の時間的・計算的に要求される広範囲なロボットデザイン空間をナビゲートする。 自動プロンプト設計と強化学習に基づく制御アルゴリズムを統合することで、RoboMorphはフィードバックループを通じてロボット設計を反復的に改善する。 実験の結果,RoboMorphは連続的な進化よりも形態学の改善を図りながら,単一の地形に最適化された非自明なロボットを作れることがわかった。 提案手法は,データ駆動型およびモジュール型ロボット設計にLLMを使用する可能性を示し,同様の設計フレームワークで他のドメインにも拡張可能な,有望な方法論を提供する。

We introduce RoboMorph, an automated approach for generating and optimizing modular robot designs using large language models (LLMs) and evolutionary algorithms. In this framework, we represent each robot design as a grammar and leverage the capabilities of LLMs to navigate the extensive robot design space, which is traditionally time-consuming and computationally demanding. By integrating automatic prompt design and a reinforcement learning based control algorithm, RoboMorph iteratively improves robot designs through feedback loops. Our experimental results demonstrate that RoboMorph can successfully generate nontrivial robots that are optimized for a single terrain while showcasing improvements in morphology over successive evolutions. Our approach demonstrates the potential of using LLMs for data-driven and modular robot design, providing a promising methodology that can be extended to other domains with similar design frameworks.
翻訳日:2024-07-12 16:40:31 公開日:2024-07-11
# ビザンチン攻撃による分散学習における一般化エラー

Generalization Error Matters in Decentralized Learning Under Byzantine Attacks ( http://arxiv.org/abs/2407.08632v1 )

ライセンス: Link先を確認
Haoxiang Ye, Qing Ling, (参考訳) 近年,分散学習がピアツーピア信号や情報処理のパラダイムとして登場し,地理的に分散したエージェント間のモデルトレーニングを,中央サーバを使わずにスケーラブルに実現している。 エージェントのいくつかが悪意のある(ビザンティンとも呼ばれる)場合、回復力のある分散学習アルゴリズムは、それらのエージェントの個数やアイデンティティを知らずに影響を制限することができ、最適化エラーを保証できる。 しかし、訓練されたモデルの実装に欠かせない一般化誤差の解析はいまだに不十分である。 本稿では,Byzantine-Resilient decentralized stochastic gradient descent (DSGD)アルゴリズムの一般化誤差を初めて解析する。 我々の理論的結果は、訓練サンプルの数が無限大であっても、ビザンチン剤の存在のため、一般化誤差を完全に排除することはできないことを示している。 理論的結果を確認するため, 数値実験を行った。

Recently, decentralized learning has emerged as a popular peer-to-peer signal and information processing paradigm that enables model training across geographically distributed agents in a scalable manner, without the presence of any central server. When some of the agents are malicious (also termed as Byzantine), resilient decentralized learning algorithms are able to limit the impact of these Byzantine agents without knowing their number and identities, and have guaranteed optimization errors. However, analysis of the generalization errors, which are critical to implementations of the trained models, is still lacking. In this paper, we provide the first analysis of the generalization errors for a class of popular Byzantine-resilient decentralized stochastic gradient descent (DSGD) algorithms. Our theoretical results reveal that the generalization errors cannot be entirely eliminated because of the presence of the Byzantine agents, even if the number of training samples are infinitely large. Numerical experiments are conducted to confirm our theoretical results.
翻訳日:2024-07-12 16:40:31 公開日:2024-07-11
# 自動倉庫レイアウト生成のための新しいフレームワーク

A Novel Framework for Automated Warehouse Layout Generation ( http://arxiv.org/abs/2407.08633v1 )

ライセンス: Link先を確認
Atefeh Shahroudnejad, Payam Mousavi, Oleksii Perepelytsia, Sahir, David Staszak, Matthew E. Taylor, Brent Bawel, (参考訳) 倉庫レイアウトの最適化は、効率と生産性に大きな影響を与えるため、非常に重要です。 自動倉庫レイアウト生成のためのAI駆動フレームワークを提案する。 このフレームワークは制約されたビームサーチを用いて、任意の空間パラメータ内の最適なレイアウトを導出し、すべての機能要件を順守する。 生成したレイアウトの有効性は、アイテムアクセシビリティ、必要最小限のクリアランス、および通路接続性といった基準に基づいて検証される。 次に、記憶位置、アクセスポイント、アクセシビリティコストを考慮し、評価可能なレイアウトを評価するためにスコア関数が使用される。 本手法は, 各種倉庫の寸法, 形状, ドア配置, インターコネクトに対して, 実現可能な最適レイアウトを作成できることを示す。 このアプローチは、現在デプロイの準備が整っているため、人間のデザイナがオプションを素早く探索し、確認することが可能になり、ユースケースに最適なレイアウトの選択が容易になる。

Optimizing warehouse layouts is crucial due to its significant impact on efficiency and productivity. We present an AI-driven framework for automated warehouse layout generation. This framework employs constrained beam search to derive optimal layouts within given spatial parameters, adhering to all functional requirements. The feasibility of the generated layouts is verified based on criteria such as item accessibility, required minimum clearances, and aisle connectivity. A scoring function is then used to evaluate the feasible layouts considering the number of storage locations, access points, and accessibility costs. We demonstrate our method's ability to produce feasible, optimal layouts for a variety of warehouse dimensions and shapes, diverse door placements, and interconnections. This approach, currently being prepared for deployment, will enable human designers to rapidly explore and confirm options, facilitating the selection of the most appropriate layout for their use-case.
翻訳日:2024-07-12 16:40:31 公開日:2024-07-11
# RTMW: リアルタイムマルチパーソン2Dと3D全身ポス推定

RTMW: Real-Time Multi-Person 2D and 3D Whole-body Pose Estimation ( http://arxiv.org/abs/2407.08634v1 )

ライセンス: Link先を確認
Tao Jiang, Xinchen Xie, Yining Li, (参考訳) 全身のポーズ推定は、身体、手、顔、足のキーポイントの同時予測を必要とする困難なタスクである。 全身のポーズ推定は、顔、胴体、手、足などの人体に対するきめ細かいポーズ情報を予測することを目的としており、人中心の知覚と生成の研究や様々な応用において重要な役割を果たしている。 本研究では,RTMW (Real-Time Multi-person Whole-body pose Estimation model) について述べる。 RTMPoseモデルアーキテクチャをFPNとHEM (Hierarchical Encoding Module) に組み込んで、様々なスケールで様々な身体部分からポーズ情報をよりよくキャプチャする。 このモデルは、手動でアライメントされたアノテーションを備えたオープンソースの人間のキーポイントデータセットの豊富なコレクションでトレーニングされ、2段階の蒸留戦略によってさらに強化される。 RTMWは、高い推論効率とデプロイメントフレンドリさを維持しながら、複数のボディ全体のポーズ推定ベンチマークで強力なパフォーマンスを示す。 RTMW-lはCOCO-Wholebodyベンチマークで70.2mAPに達し、このベンチマークで70mAPを超えた最初のオープンソースモデルとなった。 一方,RTMWの3次元一眼レフポーズ推定における性能について検討し,画像に基づく一眼レフポーズ推定を座標分類法で実施した。 この研究が学術研究と産業応用の両方に利益をもたらすことを願っている。 コードとモデルは、https://github.com/open-mmlab/mmpose/tree/main/projects/rtmposeで公開されている。

Whole-body pose estimation is a challenging task that requires simultaneous prediction of keypoints for the body, hands, face, and feet. Whole-body pose estimation aims to predict fine-grained pose information for the human body, including the face, torso, hands, and feet, which plays an important role in the study of human-centric perception and generation and in various applications. In this work, we present RTMW (Real-Time Multi-person Whole-body pose estimation models), a series of high-performance models for 2D/3D whole-body pose estimation. We incorporate RTMPose model architecture with FPN and HEM (Hierarchical Encoding Module) to better capture pose information from different body parts with various scales. The model is trained with a rich collection of open-source human keypoint datasets with manually aligned annotations and further enhanced via a two-stage distillation strategy. RTMW demonstrates strong performance on multiple whole-body pose estimation benchmarks while maintaining high inference efficiency and deployment friendliness. We release three sizes: m/l/x, with RTMW-l achieving a 70.2 mAP on the COCO-Wholebody benchmark, making it the first open-source model to exceed 70 mAP on this benchmark. Meanwhile, we explored the performance of RTMW in the task of 3D whole-body pose estimation, conducting image-based monocular 3D whole-body pose estimation in a coordinate classification manner. We hope this work can benefit both academic research and industrial applications. The code and models have been made publicly available at: https://github.com/open-mmlab/mmpose/tree/main/projects/rtmpose
翻訳日:2024-07-12 16:40:31 公開日:2024-07-11
# $β$-DPO: Dynamic $β$による直接参照最適化

$β$-DPO: Direct Preference Optimization with Dynamic $β$ ( http://arxiv.org/abs/2407.08639v1 )

ライセンス: Link先を確認
Junkang Wu, Yuexiang Xie, Zhengyi Yang, Jiancan Wu, Jinyang Gao, Bolin Ding, Xiang Wang, Xiangnan He, (参考訳) 直接選好最適化(DPO)は、人間の嗜好に従うために大規模言語モデル(LLM)を訓練するための魅力的なアプローチとして登場した。 しかし、DPOの性能は、トレードオフパラメータ$\beta$の微調整や、好みデータの品質に敏感である。 我々は、$\beta$とデータ品質がDPOに与える影響を分析し、最適な$\beta$値がペアデータの情報性によって異なることを明らかにする。 静的$\beta$値の制限に対処するため、バッチレベルで$\beta$を動的に校正する新しいフレームワークを導入します。 さらに,この手法には$\beta$-guided data filtering が組み込まれている。 実験的な評価を通じて、我々の動的$\beta$調整技術は、さまざまなモデルやデータセットにわたるDPOのパフォーマンスを大幅に改善し、LLMと人間のフィードバックの整合性を高めるための、より堅牢で適応可能なトレーニングパラダイムを提供することを示した。 コードは \url{https://github.com/junkangwu/beta-DPO} で公開されている。

Direct Preference Optimization (DPO) has emerged as a compelling approach for training Large Language Models (LLMs) to adhere to human preferences. However, the performance of DPO is sensitive to the fine-tuning of its trade-off parameter $\beta$, as well as to the quality of the preference data. We analyze the impact of $\beta$ and data quality on DPO, uncovering that optimal $\beta$ values vary with the informativeness of pairwise data. Addressing the limitations of static $\beta$ values, we introduce a novel framework that dynamically calibrates $\beta$ at the batch level, informed by data quality considerations. Additionally, our method incorporates $\beta$-guided data filtering to safeguard against the influence of outliers. Through empirical evaluation, we demonstrate that our dynamic $\beta$ adjustment technique significantly improves DPO's performance across a range of models and datasets, offering a more robust and adaptable training paradigm for aligning LLMs with human feedback. The code is available at \url{https://github.com/junkangwu/beta-DPO}.
翻訳日:2024-07-12 16:40:31 公開日:2024-07-11
# スイッチ型変調器を用いたモード非依存不均一顔認識

Modality Agnostic Heterogeneous Face Recognition with Switch Style Modulators ( http://arxiv.org/abs/2407.08640v1 )

ライセンス: Link先を確認
Anjith George, Sebastien Marcel, (参考訳) Heterogeneous Face Recognition (HFR) システムは、クロスモーダル認証に挑戦する際の顔認識能力を高めることを目的としている。 しかし、ソースとターゲットのモダリティの間の重要なドメインギャップは、クロスドメインマッチングにかなりの課題をもたらす。 既存の文献は、主に特定の顔モダリティのペアのためのHFRアプローチの開発に焦点を合わせ、各ソースとターゲットの組み合わせに対するモデルの明示的なトレーニングを必要としている。 本研究では,対象のモダリティラベルの明示的な知識を必要とせず,推論中に複数のモダリティを処理できるモダリティに依存しないHFR法を学習するための新しいフレームワークを提案する。 そこで我々は,Switch Style Modulation Blocks (SSMB) と呼ばれる計算効率の良い自動ルーティング機構を実装し,ドメインギャップを適応的に低減する特徴マップを変換する各種ドメインエキスパート変調器を訓練する。 提案したSSMBは、エンドツーエンドにトレーニングでき、事前訓練された顔認識モデルにシームレスに統合され、モダリティに依存しないHFRモデルに変換される。 提案手法の有効性を示すため,HFRベンチマークデータセットを広範囲に評価した。 ソースコードとプロトコルは公開されます。

Heterogeneous Face Recognition (HFR) systems aim to enhance the capability of face recognition in challenging cross-modal authentication scenarios. However, the significant domain gap between the source and target modalities poses a considerable challenge for cross-domain matching. Existing literature primarily focuses on developing HFR approaches for specific pairs of face modalities, necessitating the explicit training of models for each source-target combination. In this work, we introduce a novel framework designed to train a modality-agnostic HFR method capable of handling multiple modalities during inference, all without explicit knowledge of the target modality labels. We achieve this by implementing a computationally efficient automatic routing mechanism called Switch Style Modulation Blocks (SSMB) that trains various domain expert modulators which transform the feature maps adaptively reducing the domain gap. Our proposed SSMB can be trained end-to-end and seamlessly integrated into pre-trained face recognition models, transforming them into modality-agnostic HFR models. We have performed extensive evaluations on HFR benchmark datasets to demonstrate its effectiveness. The source code and protocols will be made publicly available.
翻訳日:2024-07-12 16:40:31 公開日:2024-07-11
# 次世代貯水池コンピューティングにおける不安定性と正規化

How more data can hurt: Instability and regularization in next-generation reservoir computing ( http://arxiv.org/abs/2407.08641v1 )

ライセンス: Link先を確認
Yuanzhao Zhang, Sean P. Cornelius, (参考訳) 最近、より多くのデータが、対意に、ディープニューラルネットワークの性能を損なう可能性があることが判明した。 ここでは、この現象のより極端なバージョンが、動的システムのデータ駆動モデルに発生することを示す。 基盤となるメカニズムを解明するために、データからダイナミクスを学習するための一般的なフレームワークである次世代貯水池コンピューティング(NGRC)に注目します。 トレーニングデータでより優れたフローマップ表現を学習しても、NGRCは条件の悪い 'インテグレータ' を採用して安定性を損なうことができる。 我々は、NGRCの遅延状態によって生成された補助次元に、このデータによる不安定性を関連付ける。 これらの知見に基づいて,データサイズに比例して正規化強度を増大させるか,あるいはトレーニング中にノイズを慎重に導入することにより,不安定性を軽減するための簡単な戦略を提案する。 本結果は,動的システムのデータ駆動モデリングにおける適切な正規化の重要性を強調した。

It has been found recently that more data can, counter-intuitively, hurt the performance of deep neural networks. Here, we show that a more extreme version of the phenomenon occurs in data-driven models of dynamical systems. To elucidate the underlying mechanism, we focus on next-generation reservoir computing (NGRC) -- a popular framework for learning dynamics from data. We find that, despite learning a better representation of the flow map with more training data, NGRC can adopt an ill-conditioned ``integrator'' and lose stability. We link this data-induced instability to the auxiliary dimensions created by the delayed states in NGRC. Based on these findings, we propose simple strategies to mitigate the instability, either by increasing regularization strength in tandem with data size, or by carefully introducing noise during training. Our results highlight the importance of proper regularization in data-driven modeling of dynamical systems.
翻訳日:2024-07-12 16:40:31 公開日:2024-07-11
# システム1とシステム2融合による汎用AIの構築に向けて

Towards Building Specialized Generalist AI with System 1 and System 2 Fusion ( http://arxiv.org/abs/2407.08642v1 )

ライセンス: Link先を確認
Kaiyan Zhang, Biqing Qi, Bowen Zhou, (参考訳) 本稿では,人工知能(AGI)にとって重要なマイルストーンとして,特殊汎用人工知能(SGAI,SGI)の概念を紹介する。 一般的な能力を直接スケーリングするのに対して、SGIは、人間の専門家を超越しながら、一般的な能力を保ちながら、少なくとも1つのタスクを専門とするAIとして定義される。 この融合経路により、SGIは高価値領域を迅速に達成できる。 我々は,SGIを専門的スキルと一般性パフォーマンスのレベルに基づいて3つの段階に分類する。 さらに,大言語モデルに関連する問題,例えば,不十分な汎用性,専門能力,革新の不確実性,実践的応用等に対処する上でのSGIの必要性についても論じる。 さらに,システム1と2の認知処理の強みを統合したSGI開発のための概念的枠組みを提案する。 このフレームワークは3つのレイヤと4つの重要なコンポーネントから構成されており、個々の能力を向上し、協調的な進化を促進することに重点を置いている。 潜在的な課題を要約し、今後の方向性を提案することで結論付ける。 我々は,提案されたSGIが,AGIの実現に向けたさらなる研究と応用に関する洞察を提供することを期待している。

In this perspective paper, we introduce the concept of Specialized Generalist Artificial Intelligence (SGAI or simply SGI) as a crucial milestone toward Artificial General Intelligence (AGI). Compared to directly scaling general abilities, SGI is defined as AI that specializes in at least one task, surpassing human experts, while also retaining general abilities. This fusion path enables SGI to rapidly achieve high-value areas. We categorize SGI into three stages based on the level of mastery over professional skills and generality performance. Additionally, we discuss the necessity of SGI in addressing issues associated with large language models, such as their insufficient generality, specialized capabilities, uncertainty in innovation, and practical applications. Furthermore, we propose a conceptual framework for developing SGI that integrates the strengths of Systems 1 and 2 cognitive processing. This framework comprises three layers and four key components, which focus on enhancing individual abilities and facilitating collaborative evolution. We conclude by summarizing the potential challenges and suggesting future directions. We hope that the proposed SGI will provide insights into further research and applications towards achieving AGI.
翻訳日:2024-07-12 16:40:31 公開日:2024-07-11
# 実物からクローンされた歌声の識別へ

From Real to Cloned Singer Identification ( http://arxiv.org/abs/2407.08647v1 )

ライセンス: Link先を確認
Dorian Desblancs, Gabriel Meseguer-Brocal, Romain Hennequin, Manuel Moussallam, (参考訳) 人気歌手のクローンされた声はますます現実的になり、ここ数年で人気を博している。 しかし、彼らは人格権の懸念から業界に脅威を与えている。 そのため、合成音声でオリジナル歌手を識別する手法が必要である。 本稿では,歌手の識別手法をこのような課題に活用する方法を検討する。 歌唱レベルのコントラスト学習方式を用いて学習した3つの埋め込みモデルについて述べる。 これらのセグメントは第1モデルの混合、第2モデルのボーカル、第3モデルの双方で混合することができる。 3つのモデルがすべて、本物の歌手を識別できることを実証する。 しかし, 評価セットにおいて, 歌手のクローンバージョンを分類すると, 性能は低下する。 これは、混合物を入力として使用するモデルに特に当てはまる。 これらの知見は、歌手の識別システムに存在するバイアスを理解し、音楽における声のディープフェイクの識別にどのように影響を与えるかを理解する必要性を強調している。

Cloned voices of popular singers sound increasingly realistic and have gained popularity over the past few years. They however pose a threat to the industry due to personality rights concerns. As such, methods to identify the original singer in synthetic voices are needed. In this paper, we investigate how singer identification methods could be used for such a task. We present three embedding models that are trained using a singer-level contrastive learning scheme, where positive pairs consist of segments with vocals from the same singers. These segments can be mixtures for the first model, vocals for the second, and both for the third. We demonstrate that all three models are highly capable of identifying real singers. However, their performance deteriorates when classifying cloned versions of singers in our evaluation set. This is especially true for models that use mixtures as an input. These findings highlight the need to understand the biases that exist within singer identification systems, and how they can influence the identification of voice deepfakes in music.
翻訳日:2024-07-12 16:40:31 公開日:2024-07-11
# CAR-MFL:マルチモーダル・フェデレーション学習のための検索によるクロスモーダル強化

CAR-MFL: Cross-Modal Augmentation by Retrieval for Multimodal Federated Learning with Missing Modalities ( http://arxiv.org/abs/2407.08648v1 )

ライセンス: Link先を確認
Pranav Poudel, Prashant Shrestha, Sanskar Amgain, Yash Raj Shrestha, Prashnna Gyawali, Binod Bhattarai, (参考訳) マルチモーダルAIは、より包括的な分析のために多様なデータソースを活用することにより、一元的アプローチよりも優れたパフォーマンスを示している。 しかし、この効果を医療に適用することは、パブリックデータセットの可用性が限られているため、難しい。 統合学習(Federated Learning)は、病院や保健所から広範囲にわたるデータベースを使用することで、機密データを集中化することなく、プライバシとセキュリティを維持できる、エキサイティングなソリューションだ。 しかし、マルチモーダル・フェデレート・ラーニングの研究、特にモダリティの欠如によるシナリオでは、医療データセットに共通する問題は依然として少なく、将来の探索にとって重要な領域を浮き彫りにしている。 そこで本研究では,モダリティを欠くマルチモーダル・フェデレート学習のための新しい手法を提案する。 当社のコントリビューションは、検索による新たなクロスモーダルデータ拡張であり、小さな公開データセットを活用して、クライアントの欠落したモダリティを埋めています。 提案手法は, 医療領域における複数のマルチモーダルベンチマークにおいて, プライバシ保護の確保と性能向上を両立させ, 競争力のある基準を越えながら, パラメータをフェデレートした方法で学習する。 コード提供: https://github.com/bhattarailab/CAR-MFL

Multimodal AI has demonstrated superior performance over unimodal approaches by leveraging diverse data sources for more comprehensive analysis. However, applying this effectiveness in healthcare is challenging due to the limited availability of public datasets. Federated learning presents an exciting solution, allowing the use of extensive databases from hospitals and health centers without centralizing sensitive data, thus maintaining privacy and security. Yet, research in multimodal federated learning, particularly in scenarios with missing modalities a common issue in healthcare datasets remains scarce, highlighting a critical area for future exploration. Toward this, we propose a novel method for multimodal federated learning with missing modalities. Our contribution lies in a novel cross-modal data augmentation by retrieval, leveraging the small publicly available dataset to fill the missing modalities in the clients. Our method learns the parameters in a federated manner, ensuring privacy protection and improving performance in multiple challenging multimodal benchmarks in the medical domain, surpassing several competitive baselines. Code Available: https://github.com/bhattarailab/CAR-MFL
翻訳日:2024-07-12 16:40:31 公開日:2024-07-11
# 信頼度に基づくモデルモニタリングにおける予測性能評価

Confidence-based Estimators for Predictive Performance in Model Monitoring ( http://arxiv.org/abs/2407.08649v1 )

ライセンス: Link先を確認
Juhani Kivimäki, Jakub Białek, Jukka K. Nurminen, Wojtek Kuberski, (参考訳) マシンラーニングモデルが本番環境にデプロイされた後、その予測パフォーマンスを監視する必要がある。 理想的には、そのようなモニタリングは、モデルの予測と地上の真理ラベルを比較することで行うことができる。 これを可能にするためには、推論後比較的早く、基礎となる真理ラベルを利用できなければならない。 しかし、重大な遅延の後にのみ、あるいは最悪の場合にのみ、根拠となる真理ラベルが利用可能となるユースケースが数多く存在する。 このような場合、モデルの予測性能を直接監視することは不可能である。 近年,地中真実が得られない場合の予測性能を推定する新たな手法が開発されている。 これらの手法の多くはモデル信頼度または他の不確実性推定を利用しており、与えられた予測セットに対する信頼スコアの平均としてモデル精度を推定する平均信頼度(Average Confidence, AAC)という単純なベースライン法と実験的に比較される。 しかし、これまでAC法の理論的性質は十分に研究されていない。 本稿では、このギャップをAC法を検証し、ある一般的な仮定の下では、多くの望ましい特性を持つモデル精度の偏りのない一貫した推定器であることを示そうとする。 また、このベースライン推定器と、より複雑な推定器を経験的に比較し、多くの場合において、AC法が他の推定器に勝ることを示すが、異なる推定器の比較品質は、非常にケース依存的である。

After a machine learning model has been deployed into production, its predictive performance needs to be monitored. Ideally, such monitoring can be carried out by comparing the model's predictions against ground truth labels. For this to be possible, the ground truth labels must be available relatively soon after inference. However, there are many use cases where ground truth labels are available only after a significant delay, or in the worst case, not at all. In such cases, directly monitoring the model's predictive performance is impossible. Recently, novel methods for estimating the predictive performance of a model when ground truth is unavailable have been developed. Many of these methods leverage model confidence or other uncertainty estimates and are experimentally compared against a naive baseline method, namely Average Confidence (AC), which estimates model accuracy as the average of confidence scores for a given set of predictions. However, until now the theoretical properties of the AC method have not been properly explored. In this paper, we try to fill this gap by reviewing the AC method and show that under certain general assumptions, it is an unbiased and consistent estimator of model accuracy with many desirable properties. We also compare this baseline estimator against some more complex estimators empirically and show that in many cases the AC method is able to beat the others, although the comparative quality of the different estimators is heavily case-dependent.
翻訳日:2024-07-12 16:40:31 公開日:2024-07-11
# 複雑な放射線治療計画におけるトランスフォーマーによる線量予測を可能にする潜時空間

Latent Spaces Enable Transformer-Based Dose Prediction in Complex Radiotherapy Plans ( http://arxiv.org/abs/2407.08650v1 )

ライセンス: Link先を確認
Edward Wang, Ryan Au, Pencilla Lang, Sarah A. Mattonen, (参考訳) 肺に多発する癌病変を治療するために、定位的アブレーション体放射線療法(SABR)を用いると、エビデンスを蓄積する。 マルチレジオン肺SABRプランは複雑で、作成にかなりのリソースを必要とする。 本研究では,肺SABR計画の線量予測のための新しい2段階潜伏変圧器フレームワーク(LDFormer)を提案する。 第1段階では、患者解剖情報と線量分布を潜伏空間に符号化する。 第2段階では、トランスフォーマーは、解剖学的潜伏剤から潜伏剤を予測することを学ぶ。 因果性注意は、異なる数の病変に適応するように修正される。 LDFormerは、病変とその周辺における線量整合性について、最先端の対向ネットワークより優れており、重複する病変を考慮すると、性能ギャップが大きくなる。 LDFormerは、消費者ハードウェア上で30秒未満の3D線量分布の予測を生成し、臨床的な意思決定を医師に支援し、リソースコストを削減し、治療計画を加速する可能性がある。

Evidence is accumulating in favour of using stereotactic ablative body radiotherapy (SABR) to treat multiple cancer lesions in the lung. Multi-lesion lung SABR plans are complex and require significant resources to create. In this work, we propose a novel two-stage latent transformer framework (LDFormer) for dose prediction of lung SABR plans with varying numbers of lesions. In the first stage, patient anatomical information and the dose distribution are encoded into a latent space. In the second stage, a transformer learns to predict the dose latent from the anatomical latents. Causal attention is modified to adapt to different numbers of lesions. LDFormer outperforms a state-of-the-art generative adversarial network on dose conformality in and around lesions, and the performance gap widens when considering overlapping lesions. LDFormer generates predictions of 3-D dose distributions in under 30s on consumer hardware, and has the potential to assist physicians with clinical decision making, reduce resource costs, and accelerate treatment planning.
翻訳日:2024-07-12 16:40:31 公開日:2024-07-11
# 適応スムース非定常バンド

Adaptive Smooth Non-Stationary Bandits ( http://arxiv.org/abs/2407.08654v1 )

ライセンス: Link先を確認
Joe Suk, (参考訳) 我々は、時間関数としての報酬に関するH\"{o}lderクラス仮定によって得られるように、報酬がスムーズに変化する、$K$の非定常バンディットモデルについて検討する。 このような滑らかな変化は、H\"{o}lder exponent $\beta$ と係数 $\lambda$ によってパラメタ化される。 この一般モデルの様々な部分ケースは独立に研究されているが、まずはすべての$K,\beta,\lambda$に対してミニマックス動的後悔率を確立する。 次に、この最適な動的後悔は、$\beta,\lambda$を知らずに適応的に達成できることを示す。 対照的に、パラメータの知識がある場合でも、上界は以前は限定的な制度でのみ知られていた: $\beta\leq 1$ と $\beta=2$ (Slivkins, 2014; Krishnamurthy and Gopalan, 2021; Manegueu et al , 2021; Jia et al , 2023)。 このように、本研究は、これらの異なるスレッドによって提起されたオープンな疑問を解決している。 また,非定常帯域におけるギャップ依存的後悔率の高速化についても検討した。 そのようなレートは、一般的には不可能であることが長く知られている(Garivier and Moulines, 2011)が、安全なアームを持つ環境(Suk and Kpotufe, 2022)は、$\sqrt{T}$の最悪のスケールよりもはるかに高速であることを示す。 この方向の以前の研究は、定常期間にまとめられた通常の対数的後悔境界を達成することに重点を置いていたが、我々の新たなギャップ依存率は、対数的後悔境界でさえ悲観的である新しい楽観的な非定常状態を示す。 新たなギャップ依存速度は厳密であり、その達成可能性(つまり安全なアームでできるような)が、スムーズなH\"{o}lderクラスモデルの中で驚くほど単純でクリーンな特徴づけを持つことを示す。

We study a $K$-armed non-stationary bandit model where rewards change smoothly, as captured by H\"{o}lder class assumptions on rewards as functions of time. Such smooth changes are parametrized by a H\"{o}lder exponent $\beta$ and coefficient $\lambda$. While various sub-cases of this general model have been studied in isolation, we first establish the minimax dynamic regret rate generally for all $K,\beta,\lambda$. Next, we show this optimal dynamic regret can be attained adaptively, without knowledge of $\beta,\lambda$. To contrast, even with parameter knowledge, upper bounds were only previously known for limited regimes $\beta\leq 1$ and $\beta=2$ (Slivkins, 2014; Krishnamurthy and Gopalan, 2021; Manegueu et al., 2021; Jia et al.,2023). Thus, our work resolves open questions raised by these disparate threads of the literature. We also study the problem of attaining faster gap-dependent regret rates in non-stationary bandits. While such rates are long known to be impossible in general (Garivier and Moulines, 2011), we show that environments admitting a safe arm (Suk and Kpotufe, 2022) allow for much faster rates than the worst-case scaling with $\sqrt{T}$. While previous works in this direction focused on attaining the usual logarithmic regret bounds, as summed over stationary periods, our new gap-dependent rates reveal new optimistic regimes of non-stationarity where even the logarithmic bounds are pessimistic. We show our new gap-dependent rate is tight and that its achievability (i.e., as made possible by a safe arm) has a surprisingly simple and clean characterization within the smooth H\"{o}lder class model.
翻訳日:2024-07-12 16:40:31 公開日:2024-07-11
# SPOCKMIP:最大強度投影を損失として連続性を高めるMRA内の容器の分割

SPOCKMIP: Segmentation of Vessels in MRAs with Enhanced Continuity using Maximum Intensity Projection as Loss ( http://arxiv.org/abs/2407.08655v1 )

ライセンス: Link先を確認
Chethan Radhakrishna, Karthikesh Varma Chintalapati, Sri Chandana Hudukula Ram Kumar, Raviteja Sutrave, Hendrik Mattern, Oliver Speck, Andreas Nürnberger, Soumick Chatterjee, (参考訳) 生体画像における異なる大きさの血管構造の同定は多くの神経変性疾患の診断において重要である。 しかし、そのような画像の良質なアノテーションの空間性は、容器のセグメンテーションを困難にしている。 ディープラーニングは、その高レベルな特徴表現と、そのような特徴の次元にわたる空間的連続性を学ぶことによって、異なるサイズの容器を分割する効率的な方法を提供する。 半教師付きパッチベースのアプローチは、直径1対2のボクセルの小さな容器を特定するのに有効である。 本研究は,最大強度投影〜(MIP)を付加損失基準として,特徴量の空間的相関を考慮したセグメンテーション品質の向上に焦点を当てた。 ラベルセグメンテーションのMIPを1〜(z軸)と3次元体積の複数の知覚可能な軸に組み込むことで2つの手法を提案する。 提案手法は血管の連続性を改善したセグメンテーションを生成し,ROIの視覚的検査で明らかである。 MIP損失という追加の損失項を導入して、予測された船体の不連続性を罰するパッチベースのトレーニングを改善する。 磁気共鳴血管造影(MRA)画像からなるStudioForrestデータセットから、14巻のトレーニングセットを選択する。 本手法の一般化性能は,データセット内の他の未確認ボリュームを用いて評価する。 提案手法は,MIP損失が80.245 \pm 0.129$のDiceで,より高品質なセグメンテーションを実現する。 また、単軸MIP損失の手法は、中央値のDiceが79.749 \pm 0.109$のセグメンテーションを生成する。 さらに, 予測セグメンテーションにおけるROIの視覚的比較により, MIP損失をトレーニングに取り入れた場合, 血管の連続性が大きく改善したことが明らかとなった。

Identification of vessel structures of different sizes in biomedical images is crucial in the diagnosis of many neurodegenerative diseases. However, the sparsity of good-quality annotations of such images makes the task of vessel segmentation challenging. Deep learning offers an efficient way to segment vessels of different sizes by learning their high-level feature representations and the spatial continuity of such features across dimensions. Semi-supervised patch-based approaches have been effective in identifying small vessels of one to two voxels in diameter. This study focuses on improving the segmentation quality by considering the spatial correlation of the features using the Maximum Intensity Projection~(MIP) as an additional loss criterion. Two methods are proposed with the incorporation of MIPs of label segmentation on the single~(z-axis) and multiple perceivable axes of the 3D volume. The proposed MIP-based methods produce segmentations with improved vessel continuity, which is evident in visual examinations of ROIs. Patch-based training is improved by introducing an additional loss term, MIP loss, to penalise the predicted discontinuity of vessels. A training set of 14 volumes is selected from the StudyForrest dataset comprising of 18 7-Tesla 3D Time-of-Flight~(ToF) Magnetic Resonance Angiography (MRA) images. The generalisation performance of the method is evaluated using the other unseen volumes in the dataset. It is observed that the proposed method with multi-axes MIP loss produces better quality segmentations with a median Dice of $80.245 \pm 0.129$. Also, the method with single-axis MIP loss produces segmentations with a median Dice of $79.749 \pm 0.109$. Furthermore, a visual comparison of the ROIs in the predicted segmentation reveals a significant improvement in the continuity of the vessels when MIP loss is incorporated into training.
翻訳日:2024-07-12 16:30:47 公開日:2024-07-11
# 擬似密度による深部生成モデルの忠実度と多様性の制御

Controlling the Fidelity and Diversity of Deep Generative Models via Pseudo Density ( http://arxiv.org/abs/2407.08659v1 )

ライセンス: Link先を確認
Shuangqi Li, Chen Liu, Tong Zhang, Hieu Le, Sabine Süsstrunk, Mathieu Salzmann, (参考訳) 本稿では,GANや拡散モデルといったバイアスの深い生成モデルに対するアプローチを導入する。 提案手法では, 実検体から最も近い隣り合う情報に基づいて, 擬似密度(擬似密度)という, 個別検体のための新しい検体を用いて, トレーニングと生成データの分布を操作する。 我々のアプローチは、深層生成モデルの忠実度と多様性を調節する3つの異なる手法を提供する。 1 サンプルごとの摂動により、個々の試料をより一般的又はより特異な特性に正確に調整することができる。 2 モデル推論における重要度サンプリングにより、生成されたデータの忠実度又は多様性を高めること。 3) 重要サンプリングによる微調整により, 生成モデルを誘導し, 適応分布を学習し, 忠実度と多様性を制御できる。 さらに,Frechet Inception Distance (FID) を最小限のイテレーションで事前学習した生成モデルに対して改良する機能を示した。

We introduce an approach to bias deep generative models, such as GANs and diffusion models, towards generating data with either enhanced fidelity or increased diversity. Our approach involves manipulating the distribution of training and generated data through a novel metric for individual samples, named pseudo density, which is based on the nearest-neighbor information from real samples. Our approach offers three distinct techniques to adjust the fidelity and diversity of deep generative models: 1) Per-sample perturbation, enabling precise adjustments for individual samples towards either more common or more unique characteristics; 2) Importance sampling during model inference to enhance either fidelity or diversity in the generated data; 3) Fine-tuning with importance sampling, which guides the generative model to learn an adjusted distribution, thus controlling fidelity and diversity. Furthermore, our fine-tuning method demonstrates the ability to improve the Frechet Inception Distance (FID) for pre-trained generative models with minimal iterations.
翻訳日:2024-07-12 16:30:47 公開日:2024-07-11
# 医療質問応答における大規模言語モデルの不確実性評価

Uncertainty Estimation of Large Language Models in Medical Question Answering ( http://arxiv.org/abs/2407.08662v1 )

ライセンス: Link先を確認
Jiaxin Wu, Yizhou Yu, Hong-Yu Zhou, (参考訳) 大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。 医療質問応答のためのLLMの展開には、幻覚を検出するための確実な不確実性推定(UE)方法が必要である。 本研究では,医学的質問応答データセット上で,モデルサイズが異なる人気のUE手法をベンチマークする。 以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。 また,モデルサイズとUEの信頼性の相関関係が示唆され,より大きなモデルの方がより良い結果が得られる傾向が示唆された。 これらの課題に対処するために,確率のない不確実性推定手法である2相検証を提案する。 まず、LCMは、最初の回答と共にステップバイステップの説明を生成し、続いて、検証質問を定式化し、説明の事実的クレームをチェックする。 モデルはまず独立して、次に説明を参照する。 2組の回答の不一致は、元の応答の不確実性を測定する。 Llama 2 Chatモデルを用いて,3つのバイオメディカル質問応答データセットに対するアプローチを評価し,ベンチマークされたベースライン手法と比較した。 その結果, 2相検証法は, モデルサイズが大きくなるにつれて, 様々なデータセットやモデルサイズにまたがる最高の総合的精度と安定性を実現し, 性能のスケールが大きくなることがわかった。

Large Language Models (LLMs) show promise for natural language generation in healthcare, but risk hallucinating factually incorrect information. Deploying LLMs for medical question answering necessitates reliable uncertainty estimation (UE) methods to detect hallucinations. In this work, we benchmark popular UE methods with different model sizes on medical question-answering datasets. Our results show that current approaches generally perform poorly in this domain, highlighting the challenge of UE for medical applications. We also observe that larger models tend to yield better results, suggesting a correlation between model size and the reliability of UE. To address these challenges, we propose Two-phase Verification, a probability-free Uncertainty Estimation approach. First, an LLM generates a step-by-step explanation alongside its initial answer, followed by formulating verification questions to check the factual claims in the explanation. The model then answers these questions twice: first independently, and then referencing the explanation. Inconsistencies between the two sets of answers measure the uncertainty in the original response. We evaluate our approach on three biomedical question-answering datasets using Llama 2 Chat models and compare it against the benchmarked baseline methods. The results show that our Two-phase Verification method achieves the best overall accuracy and stability across various datasets and model sizes, and its performance scales as the model size increases.
翻訳日:2024-07-12 16:30:47 公開日:2024-07-11
# モンチェンリ<3> 条件付き機能拡張RISC

Mon CHÈRI <3 Adapting Capability Hardware Enhanced RISC with Conditional Capabilities ( http://arxiv.org/abs/2407.08663v1 )

ライセンス: Link先を確認
Merve Gülmez, Håkan Englund, Jan Tobias Mühlberg, Thomas Nyman, (参考訳) CやC++のような言語におけるメモリセーフティの脆弱性の最大10%は、初期化されていない変数に由来する。 この研究は、初期化されていないメモリ問題に対する適切なソフトウェア緩和の頻度と欠如に対処し、ハードウェアにおけるアーキテクチャ保護を提案している。 ケンブリッジ大学のCHERIのような能力ベースのアドレス処理は、建築レベルでの空間的および時間的安全違反を含む多くのメモリ欠陥を軽減している。 しかし、現在のCHERIの設計は初期化されていない変数からの未定義の振る舞いを扱わない。 我々は、CHERI機能モデルを拡張して、以前の操作に基づいたメモリアクセスポリシーを可能にする「条件付き機能」を含むようにします。 これにより、"少なくとも1つの事前書き込みなしでメモリを読まない"(Write-before-Read)など、メモリ安全性の目標を満たすポリシーの実施が可能になる。 本稿では,QEMUフルシステムシミュレータとFPGAベースのCHERI-RISCVソフトコアを用いたアーキテクチャ拡張,コンパイラサポート,アプローチの詳細な評価を行う。 既存のCHERIアーキテクチャに小さなオーバーヘッド(約3.5%)を加えながら、高い検出精度で書き込み-before-Read条件付き機能を実現する。

Up to 10% of memory-safety vulnerabilities in languages like C and C++ stem from uninitialized variables. This work addresses the prevalence and lack of adequate software mitigations for uninitialized memory issues, proposing architectural protections in hardware. Capability-based addressing, such as the University of Cambridge's CHERI, mitigates many memory defects, including spatial and temporal safety violations at an architectural level. However, current CHERI designs do not handle undefined behavior from uninitialized variables. We extend the CHERI capability model to include "conditional capabilities", enabling memory-access policies based on prior operations. This allows enforcement of policies that satisfy memory safety objectives such as "no reads to memory without at least one prior write" (Write-before-Read). We present our architecture extension, compiler support, and a detailed evaluation of our approach using the QEMU full-system simulator and our modified FPGA-based CHERI-RISCV softcore. Our evaluation shows Write-before-Read conditional capabilities are practical, with high detection accuracy while adding a small (~3.5%) overhead to the existing CHERI architecture.
翻訳日:2024-07-12 16:30:47 公開日:2024-07-11
# 生成ニューラルネットワークによる時空間極値の推定

Estimation of spatio-temporal extremes via generative neural networks ( http://arxiv.org/abs/2407.08668v1 )

ライセンス: Link先を確認
Christopher Bülte, Lisa Leimenstoll, Melanie Schienle, (参考訳) 空間的極端事象をモデル化する最近の手法は、パラメトリックな最大安定過程とその基盤となる依存構造の利用に焦点を当てている。 本研究では,モデルパラメータの分布や空間依存を直接推定することにより,利用可能なデータが少ない空間的極端を解析するための統一的なアプローチを提案する。 生成ニューラルネットワークの最近の発展を活用して、完全なサンプルベースの分布を予測し、モデルパラメータやその他のパラメータ依存関数に関する不確実性を直接評価する。 提案手法は,パラメータ推定や不確かさの定量化など,複数のシミュレーションされた最大安定過程を適合させて検証する。 さらなるロバスト性チェックでは、モデルの一般化と外挿能力が強調される一方、西ドイツ全域で極度の降水への適用は、我々のアプローチが現実のシナリオで有用であることを実証している。

Recent methods in modeling spatial extreme events have focused on utilizing parametric max-stable processes and their underlying dependence structure. In this work, we provide a unified approach for analyzing spatial extremes with little available data by estimating the distribution of model parameters or the spatial dependence directly. By employing recent developments in generative neural networks we predict a full sample-based distribution, allowing for direct assessment of uncertainty regarding model parameters or other parameter dependent functionals. We validate our method by fitting several simulated max-stable processes, showing a high accuracy of the approach, regarding parameter estimation, as well as uncertainty quantification. Additional robustness checks highlight the generalization and extrapolation capabilities of the model, while an application to precipitation extremes across Western Germany demonstrates the usability of our approach in real-world scenarios.
翻訳日:2024-07-12 16:30:47 公開日:2024-07-11
# リモートセンシング画像からの視覚質問応答に対するセグメンテーション誘導注意

Segmentation-guided Attention for Visual Question Answering from Remote Sensing Images ( http://arxiv.org/abs/2407.08669v1 )

ライセンス: Link先を確認
Lucrezia Tosato, Hichem Boussaid, Flora Weissgerber, Camille Kurtz, Laurent Wendling, Sylvain Lobry, (参考訳) Visual Question Answering for Remote Sensing (RSVQA)は、リモートセンシング画像の内容に関する自然言語の質問に答えることを目的としたタスクである。 したがって、視覚的特徴抽出はVQAパイプラインにおいて不可欠なステップである。 このプロセスに注意機構を組み込むことで、モデルは与えられた質問に対して最も関連性の高い視覚情報を優先順位付けして、画像の健全な領域に選択的に焦点を合わせることができる。 本研究では,RSVQAパイプラインにセグメンテーションによって誘導されるアテンション機構を組み込むことを提案する。 セグメンテーションは、視覚情報、基礎となる特定の対象や関心領域の文脈的理解を提供することによって、注意を誘導する上で重要な役割を担っていると論じる。 この手法を評価するために,16のセグメンテーションクラスと問合せ/問合せペアをアノテートした非常に高解像度のRGB写真を利用する新しいVQAデータセットを提供する。 本研究は,提案手法の有望な結果を示し,提案したデータセットの古典的手法と比較して,全体の約10%の精度が得られた。

Visual Question Answering for Remote Sensing (RSVQA) is a task that aims at answering natural language questions about the content of a remote sensing image. The visual features extraction is therefore an essential step in a VQA pipeline. By incorporating attention mechanisms into this process, models gain the ability to focus selectively on salient regions of the image, prioritizing the most relevant visual information for a given question. In this work, we propose to embed an attention mechanism guided by segmentation into a RSVQA pipeline. We argue that segmentation plays a crucial role in guiding attention by providing a contextual understanding of the visual information, underlying specific objects or areas of interest. To evaluate this methodology, we provide a new VQA dataset that exploits very high-resolution RGB orthophotos annotated with 16 segmentation classes and question/answer pairs. Our study shows promising results of our new methodology, gaining almost 10% of overall accuracy compared to a classical method on the proposed dataset.
翻訳日:2024-07-12 16:30:47 公開日:2024-07-11
# NODE-Adapter:視覚言語推論のためのニューラル正規微分方程式

NODE-Adapter: Neural Ordinary Differential Equations for Better Vision-Language Reasoning ( http://arxiv.org/abs/2407.08672v1 )

ライセンス: Link先を確認
Yi Zhang, Chun-Wun Cheng, Ke Yu, Zhihai He, Carola-Bibiane Schönlieb, Angelica I. Aviles-Rivero, (参考訳) 本稿では,プロトタイプに基づく視覚言語推論問題について考察する。 既存の手法が3つの大きな課題に直面するのを観察する。 1)資源需要の増大及び訓練期間の延長。 2)過度に学習可能なパラメータと競合すること、 3)単一モダリティのみに基づく微調整。 これらの課題は、VLM(Vision-Language Models)を下流タスクに適用する能力を妨げます。 この批判的な観察により,ニューラル正規微分方程式を用いて視覚言語推論を改善する新しい手法であるNODE-Adapterを提案する。 視覚的およびテキスト的モダリティの両面を効果的かつ正確に評価するために,我々は,ニューラルネットワークの常微分方程式を用いたクロスモーダルなプロトタイプ構築とクロスモーダルなプロトタイプ最適化の2段階に分割した。 具体的には、VLMを利用して手作りのプロンプトをテキスト機能にエンコードし、少数ショットのサポートイメージを視覚機能にエンコードする。 そして,テキスト特徴と視覚特徴をそれぞれ平均化してテキストプロトタイプと視覚プロトタイプを推定し,テキストプロトタイプと視覚プロトタイプを適応的に組み合わせてクロスモーダルプロトタイプを構築する。 次に、プロトタイプのバイアスを軽減するために、ニューラルネットワークによる初期値問題としてプロトタイプ最適化プロセスをモデル化し、連続的な勾配流を推定する。 提案手法が既存の最先端手法を著しく上回ることを示すために, 少数ショットの分類, ドメインの一般化, 視覚的推論を対象とする広範囲な実験結果を得た。

In this paper, we consider the problem of prototype-based vision-language reasoning problem. We observe that existing methods encounter three major challenges: 1) escalating resource demands and prolonging training times, 2) contending with excessive learnable parameters, and 3) fine-tuning based only on a single modality. These challenges will hinder their capability to adapt Vision-Language Models (VLMs) to downstream tasks. Motivated by this critical observation, we propose a novel method called NODE-Adapter, which utilizes Neural Ordinary Differential Equations for better vision-language reasoning. To fully leverage both visual and textual modalities and estimate class prototypes more effectively and accurately, we divide our method into two stages: cross-modal prototype construction and cross-modal prototype optimization using neural ordinary differential equations. Specifically, we exploit VLM to encode hand-crafted prompts into textual features and few-shot support images into visual features. Then, we estimate the textual prototype and visual prototype by averaging the textual features and visual features, respectively, and adaptively combine the textual prototype and visual prototype to construct the cross-modal prototype. To alleviate the prototype bias, we then model the prototype optimization process as an initial value problem with Neural ODEs to estimate the continuous gradient flow. Our extensive experimental results, which cover few-shot classification, domain generalization, and visual reasoning on human-object interaction, demonstrate that the proposed method significantly outperforms existing state-of-the-art approaches.
翻訳日:2024-07-12 16:30:47 公開日:2024-07-11
# 動画データ無しで動画をカスタマイズできる「Still-Moving」

Still-Moving: Customized Video Generation without Customized Video Data ( http://arxiv.org/abs/2407.08674v1 )

ライセンス: Link先を確認
Hila Chefer, Shiran Zada, Roni Paiss, Ariel Ephrat, Omer Tov, Michael Rubinstein, Lior Wolf, Tali Dekel, Tomer Michaeli, Inbar Mosseri, (参考訳) テキスト・ツー・イメージ(T2I)モデルのカスタマイズは、特にパーソナライズ、スタイリゼーション、条件生成といった分野において、近年大きな進歩を遂げている。 しかし、ビデオ生成へのこの進歩は、主にカスタマイズされたビデオデータがないために、まだ初期段階にある。 本研究では,テキスト・トゥ・ビデオ(T2V)モデルをカスタマイズするための新しい汎用フレームワークであるStill-Movingを紹介する。 このフレームワークは、ビデオモデルがテキスト・トゥ・イメージ(T2I)モデル(例えばインフレーション)上に構築される、著名なT2V設計に適用される。 私たちは、静止画像データ(例えばDreamBoothやStyleDropを使って)でのみトレーニングされた、カスタマイズされたバージョンのT2Iモデルへのアクセスを前提としています。 カスタマイズされたT2Iモデルの重みをT2Vモデルにネゴライズすることで、しばしば重要なアーティファクトやカスタマイズデータへの完全性に繋がる。 この問題を解決するために、注入されたT2I層によって生成された機能を調整する軽量な$\textit{Spatial Adapters}$をトレーニングします。 重要なことは、当社のアダプタは、カスタマイズされたT2Iモデルによって生成されたイメージサンプルから構築された、$\textit{"frozen video"}$(つまり、繰り返しイメージ)でトレーニングされています。 このトレーニングは、新しい$\textit{Motion Adapter}$モジュールによって促進されます。 テスト時には、Motion Adapterモジュールを削除し、トレーニングされた空間アダプタのみに残します。 これにより、T2Vモデルの前の動きを復元し、カスタマイズされたT2Iモデルの前の空間に付着する。 我々は,パーソナライズ,スタイル化,条件生成など多様なタスクに対するアプローチの有効性を実証する。 評価されたすべてのシナリオにおいて,提案手法は,T2Vモデルによって事前に提供される動きと,カスタマイズされたT2Iモデルの空間的先行をシームレスに統合する。

Customizing text-to-image (T2I) models has seen tremendous progress recently, particularly in areas such as personalization, stylization, and conditional generation. However, expanding this progress to video generation is still in its infancy, primarily due to the lack of customized video data. In this work, we introduce Still-Moving, a novel generic framework for customizing a text-to-video (T2V) model, without requiring any customized video data. The framework applies to the prominent T2V design where the video model is built over a text-to-image (T2I) model (e.g., via inflation). We assume access to a customized version of the T2I model, trained only on still image data (e.g., using DreamBooth or StyleDrop). Naively plugging in the weights of the customized T2I model into the T2V model often leads to significant artifacts or insufficient adherence to the customization data. To overcome this issue, we train lightweight $\textit{Spatial Adapters}$ that adjust the features produced by the injected T2I layers. Importantly, our adapters are trained on $\textit{"frozen videos"}$ (i.e., repeated images), constructed from image samples generated by the customized T2I model. This training is facilitated by a novel $\textit{Motion Adapter}$ module, which allows us to train on such static videos while preserving the motion prior of the video model. At test time, we remove the Motion Adapter modules and leave in only the trained Spatial Adapters. This restores the motion prior of the T2V model while adhering to the spatial prior of the customized T2I model. We demonstrate the effectiveness of our approach on diverse tasks including personalized, stylized, and conditional generation. In all evaluated scenarios, our method seamlessly integrates the spatial prior of the customized T2I model with a motion prior supplied by the T2V model.
翻訳日:2024-07-12 16:30:47 公開日:2024-07-11
# CADによる生成モデル:実現可能な新しい設計への道のり

CAD-Prompted Generative Models: A Pathway to Feasible and Novel Engineering Designs ( http://arxiv.org/abs/2407.08675v1 )

ライセンス: Link先を確認
Leah Chong, Jude Rayan, Steven Dow, Ioanna Lykourentzou, Faez Ahmed, (参考訳) テキストから画像への生成モデルは、グラフィックデザイン、ユーザインタフェースデザイン、ファッションデザインなど、様々なクリエイティブドメインにおけるコンセプト生成において、デザイナーを支援するためにますます使われてきた。 しかし、実用可能な設計概念のイメージを生成する上でのモデルの課題のため、エンジニアリング設計における彼らの応用は依然として限られている。 この問題に対処するために,本研究では,CAD画像の生成を促すことによって,設計の実現可能性を向上させる手法を提案する。 本研究では,本手法の有用性について,市販のテキスト・トゥ・イメージモデルであるスタブル・ディフュージョン2.1を用いて,自転車設計作業のケーススタディを通じて検討した。 異なるCAD画像が重みを誘導する7つの世代で多様な自転車デザインが作成され、これらのデザインは、その実現可能性と新規性に基づいて評価される。 その結果、CAD画像のプロンプトは、Stable Diffusion 2.1のようなテキストから画像への変換に有効であることが示されている。 実現可能性と新規性の間には一般的なトレードオフが観測されるが、プロンプト重量が0.35前後に抑えられると、その新規性はテキストプロンプトだけで生成されるものと同等に保たれつつも、設計可能性は大きく向上する。 このケーススタディから得られた知見は、エンジニアリング設計プロセスの異なる段階の重み付けを促す適切なCAD画像を選択するためのガイドラインを提供する。 本手法を有効活用すると,CAD画像プロンプト法は,工学設計におけるテキスト・ツー・イメージ・モデルの幅広い応用に扉を開くことができる。

Text-to-image generative models have increasingly been used to assist designers during concept generation in various creative domains, such as graphic design, user interface design, and fashion design. However, their applications in engineering design remain limited due to the models' challenges in generating images of feasible designs concepts. To address this issue, this paper introduces a method that improves the design feasibility by prompting the generation with feasible CAD images. In this work, the usefulness of this method is investigated through a case study with a bike design task using an off-the-shelf text-to-image model, Stable Diffusion 2.1. A diverse set of bike designs are produced in seven different generation settings with varying CAD image prompting weights, and these designs are evaluated on their perceived feasibility and novelty. Results demonstrate that the CAD image prompting successfully helps text-to-image models like Stable Diffusion 2.1 create visibly more feasible design images. While a general tradeoff is observed between feasibility and novelty, when the prompting weight is kept low around 0.35, the design feasibility is significantly improved while its novelty remains on par with those generated by text prompts alone. The insights from this case study offer some guidelines for selecting the appropriate CAD image prompting weight for different stages of the engineering design process. When utilized effectively, our CAD image prompting method opens doors to a wider range of applications of text-to-image models in engineering design.
翻訳日:2024-07-12 16:30:47 公開日:2024-07-11
# バイエルン人の敵を倒す方法

How to beat a Bayesian adversary ( http://arxiv.org/abs/2407.08678v1 )

ライセンス: Link先を確認
Zihan Ding, Kexin Jin, Jonas Latz, Chenguang Liu, (参考訳) ディープニューラルネットワークやその他の現代の機械学習モデルは、しばしば敵の攻撃を受けやすい。 実際、敵はしばしばモデルの入力の小さな方向の摂動によってモデルの予測を変更することができる。 逆向きの堅牢な機械学習は、通常、最小限の最適化問題に基づいており、最大化ベースの敵攻撃下での機械学習損失を最小限に抑える。 本研究では,最大化ではなくベイズ統計手法を用いて攻撃を決定する敵について検討する。 ベイズ対逆ロバスト性問題は、通常のミンマックス問題の緩和である。 この問題を解決するために,基礎となる学習問題に対応する勾配流を近似する連続時間粒子システムであるAbramを提案する。 我々は、アブラムがマッキーン・ブラソフ過程を近似し、マッキーン・ブラソフ過程がベイズ対逆ロバスト性問題のミニミザーを見つける仮定を与えることにより、アブラムの使用を正当化することを示した。 本稿では,Abramを識別する2つの手法について論じる。

Deep neural networks and other modern machine learning models are often susceptible to adversarial attacks. Indeed, an adversary may often be able to change a model's prediction through a small, directed perturbation of the model's input - an issue in safety-critical applications. Adversarially robust machine learning is usually based on a minmax optimisation problem that minimises the machine learning loss under maximisation-based adversarial attacks. In this work, we study adversaries that determine their attack using a Bayesian statistical approach rather than maximisation. The resulting Bayesian adversarial robustness problem is a relaxation of the usual minmax problem. To solve this problem, we propose Abram - a continuous-time particle system that shall approximate the gradient flow corresponding to the underlying learning problem. We show that Abram approximates a McKean-Vlasov process and justify the use of Abram by giving assumptions under which the McKean-Vlasov process finds the minimiser of the Bayesian adversarial robustness problem. We discuss two ways to discretise Abram and show its suitability in benchmark adversarial deep learning experiments.
翻訳日:2024-07-12 16:30:47 公開日:2024-07-11
# ビデオフレーム補間のための一般化可能なインシシタント・モーション・モデリング

Generalizable Implicit Motion Modeling for Video Frame Interpolation ( http://arxiv.org/abs/2407.08680v1 )

ライセンス: Link先を確認
Zujin Guo, Wei Li, Chen Change Loy, (参考訳) モーションモデリングは、フローベースのビデオフレーム補間(VFI)において重要である。 既存のパラダイムでは、双方向フローの線形結合を考慮するか、与えられたタイムスタンプの2方向フローを直接予測するが、適切な動きの先行を探索することはできず、現実の動画において時空間力学を効果的にモデル化する能力は欠如している。 この制限に対処するために,本研究では,VFIのための動きモデリングの新しい,効果的なアプローチであるGeneralizable Implicit Motion Modeling (GIMM)を紹介する。 具体的には,GIMMを効果的な動作モデリングパラダイムとして有効にするために,事前学習した流速推定器から抽出した双方向流の時空間運動潜時をモデル化する動き符号化パイプラインを設計し,入力固有の動き先行を効果的に表現する。 そして、適応座標ベースニューラルネットワークを用いて、2つの隣接する入力フレーム内の任意の時間ステップの光フローを暗黙的に予測し、時空間座標と動き潜時を入力とする。 我々のGIMMは、既存のフローベースのVFIワークとスムーズに統合できます。 GIMMは,現在のVFIベンチマークよりも性能がよいことを示す。

Motion modeling is critical in flow-based Video Frame Interpolation (VFI). Existing paradigms either consider linear combinations of bidirectional flows or directly predict bilateral flows for given timestamps without exploring favorable motion priors, thus lacking the capability of effectively modeling spatiotemporal dynamics in real-world videos. To address this limitation, in this study, we introduce Generalizable Implicit Motion Modeling (GIMM), a novel and effective approach to motion modeling for VFI. Specifically, to enable GIMM as an effective motion modeling paradigm, we design a motion encoding pipeline to model spatiotemporal motion latent from bidirectional flows extracted from pre-trained flow estimators, effectively representing input-specific motion priors. Then, we implicitly predict arbitrary-timestep optical flows within two adjacent input frames via an adaptive coordinate-based neural network, with spatiotemporal coordinates and motion latent as inputs. Our GIMM can be smoothly integrated with existing flow-based VFI works without further modifications. We show that GIMM performs better than the current state of the art on the VFI benchmarks.
翻訳日:2024-07-12 16:30:47 公開日:2024-07-11
# カートポールとF1TENTHレースカーのハードウェアニューラル制御

Hardware Neural Control of CartPole and F1TENTH Race Car ( http://arxiv.org/abs/2407.08681v1 )

ライセンス: Link先を確認
Marcin Paluch, Florian Bolli, Xiang Deng, Antonio Rios Navarro, Chang Gao, Tobi Delbruck, (参考訳) 非線形モデル予測制御(NMPC)は効果的な制御法であることが証明されているが、計算は高価である。 この研究は、教師付き学習でNMPCを模倣するように訓練されたハードウェアFPGAニューラルネットワークコントローラの使用を実証する。 我々は、安価な組み込みFPGAハードウェア上に実装されたこれらのニューラルコントローラを用いて、物理カートポールとF1TENTHレースカーの高周波制御を行う。 この結果から,NCは高速FPGA NC推論で得られる制御速度が速いため,シミュレーションにおけるNMPCの制御性能に一致し,現実よりも優れることがわかった。 我々は、F1TENTH車のFPGAハードウェアに物理的カートポールのkHz制御率とオフロード制御を実証する。 本論文のコードとハードウェアの実装はhttps:// github.com/SensorsINI/Neural-Control-Toolsで公開されている。

Nonlinear model predictive control (NMPC) has proven to be an effective control method, but it is expensive to compute. This work demonstrates the use of hardware FPGA neural network controllers trained to imitate NMPC with supervised learning. We use these Neural Controllers (NCs) implemented on inexpensive embedded FPGA hardware for high frequency control on physical cartpole and F1TENTH race car. Our results show that the NCs match the control performance of the NMPCs in simulation and outperform it in reality, due to the faster control rate that is afforded by the quick FPGA NC inference. We demonstrate kHz control rates for a physical cartpole and offloading control to the FPGA hardware on the F1TENTH car. Code and hardware implementation for this paper are available at https:// github.com/SensorsINI/Neural-Control-Tools.
翻訳日:2024-07-12 16:30:47 公開日:2024-07-11
# SEED-Story:大規模言語モデルを用いたマルチモーダル・ロングストーリー・ジェネレーション

SEED-Story: Multimodal Long Story Generation with Large Language Model ( http://arxiv.org/abs/2407.08683v1 )

ライセンス: Link先を確認
Shuai Yang, Yuying Ge, Yang Li, Yukang Chen, Yixiao Ge, Ying Shan, Yingcong Chen, (参考訳) 画像生成とオープンフォームテキスト生成の顕著な進歩により、インターリーブされた画像テキストコンテンツの作成は、ますます興味深い分野になりつつある。 物語テキストと鮮やかなイメージをインターリーブで生成する多モーダルなストーリー生成は、幅広い応用において価値ある実践的課題として現れてきた。 しかし、このタスクは、テキストと画像の間の複雑な相互作用の理解と、一貫性のあるコンテキストに関連のあるテキストと視覚の長いシーケンスを生成する能力を必要とするため、重大な課題を生じさせる。 本稿では,MLLM(Multimodal Large Language Model)を利用した拡張多モーダルストーリ生成手法であるSEED-Storyを提案する。 我々のモデルはMLLMの強力な理解能力に基づいて、テキストトークンと視覚トークンを予測し、それを適応された視覚的デトケナイザで処理し、一貫した文字やスタイルで画像を生成する。 さらに,最大25個のストーリー(トレーニング用10個)を高効率で自動回帰的に生成できるマルチモーダルアテンションシンク機構を提案する。 さらに,大規模かつ高解像度なStoryStreamというデータセットを提示し,モデルをトレーニングし,様々な側面においてマルチモーダルなストーリー生成のタスクを定量的に評価する。

With the remarkable advancements in image generation and open-form text generation, the creation of interleaved image-text content has become an increasingly intriguing field. Multimodal story generation, characterized by producing narrative texts and vivid images in an interleaved manner, has emerged as a valuable and practical task with broad applications. However, this task poses significant challenges, as it necessitates the comprehension of the complex interplay between texts and images, and the ability to generate long sequences of coherent, contextually relevant texts and visuals. In this work, we propose SEED-Story, a novel method that leverages a Multimodal Large Language Model (MLLM) to generate extended multimodal stories. Our model, built upon the powerful comprehension capability of MLLM, predicts text tokens as well as visual tokens, which are subsequently processed with an adapted visual de-tokenizer to produce images with consistent characters and styles. We further propose multimodal attention sink mechanism to enable the generation of stories with up to 25 sequences (only 10 for training) in a highly efficient autoregressive manner. Additionally, we present a large-scale and high-resolution dataset named StoryStream for training our model and quantitatively evaluating the task of multimodal story generation in various aspects.
翻訳日:2024-07-12 16:30:47 公開日:2024-07-11
# AI権利章典のブループリント運用 - 実践者、研究者、政策立案者への勧告

Operationalizing the Blueprint for an AI Bill of Rights: Recommendations for Practitioners, Researchers, and Policy Makers ( http://arxiv.org/abs/2407.08689v1 )

ライセンス: Link先を確認
Alex Oesterling, Usha Bhalla, Suresh Venkatasubramanian, Himabindu Lakkaraju, (参考訳) 人工知能(AI)ツールは、さまざまな現実世界のアプリケーションにますます採用されているため、これらのツールの規制に大きな関心が寄せられている。 この目的のために、世界各地でいくつかの規制枠組みが導入されている。 例えば、欧州連合(EU)は最近AI法を成立させ、ホワイトハウスは安全で安全で信頼できるAIに関する執行命令を出し、ホワイトハウス科学技術政策局はAI権利章(AI BoR)の青写真を発行した。 これらのフレームワークの多くは、AIツールの信頼性の監査と改善の必要性を強調し、安全性、プライバシ、説明可能性、公正性、人間のフォールバックオプションの重要性を強調している。 これらの規制の枠組みは実施の必要性を強調しているが、実践者はしばしば実施に関する詳細なガイダンスを欠いている。 さらに、これら各側面の運用に関する広範な研究は、実践者が解析することが困難である技術論文にしばしば埋もれている。 本稿では、規制原則の運用に関する既存の文献について、アクセス可能な概要を提供することで、この欠点に対処する。 我々は、最先端の文献の分かりやすい要約を提供し、規制ガイドラインと既存のAI研究の間に存在する様々なギャップを強調します。 この研究が、AI BoRのBlueprintに概説されている規制ガイドラインの運用についてもっと知りたい実践者にとっての出発点となるだけでなく、研究者たちに、規制と最先端のAI研究の間の重要なオープンな問題とギャップのリストを提供することを期待しています。 最後に,本論文は作業用紙であり,紹介資料に記載されているように,本資料の目的に合わせてフィードバックを募集する。

As Artificial Intelligence (AI) tools are increasingly employed in diverse real-world applications, there has been significant interest in regulating these tools. To this end, several regulatory frameworks have been introduced by different countries worldwide. For example, the European Union recently passed the AI Act, the White House issued an Executive Order on safe, secure, and trustworthy AI, and the White House Office of Science and Technology Policy issued the Blueprint for an AI Bill of Rights (AI BoR). Many of these frameworks emphasize the need for auditing and improving the trustworthiness of AI tools, underscoring the importance of safety, privacy, explainability, fairness, and human fallback options. Although these regulatory frameworks highlight the necessity of enforcement, practitioners often lack detailed guidance on implementing them. Furthermore, the extensive research on operationalizing each of these aspects is frequently buried in technical papers that are difficult for practitioners to parse. In this write-up, we address this shortcoming by providing an accessible overview of existing literature related to operationalizing regulatory principles. We provide easy-to-understand summaries of state-of-the-art literature and highlight various gaps that exist between regulatory guidelines and existing AI research, including the trade-offs that emerge during operationalization. We hope that this work not only serves as a starting point for practitioners interested in learning more about operationalizing the regulatory guidelines outlined in the Blueprint for an AI BoR but also provides researchers with a list of critical open problems and gaps between regulations and state-of-the-art AI research. Finally, we note that this is a working paper and we invite feedback in line with the purpose of this document as described in the introduction.
翻訳日:2024-07-12 16:30:47 公開日:2024-07-11
# ElasticAST:全ての長さと解像度のオーディオスペクトログラム変換器

ElasticAST: An Audio Spectrogram Transformer for All Length and Resolutions ( http://arxiv.org/abs/2407.08691v1 )

ライセンス: Link先を確認
Jiu Feng, Mehmet Hamza Erol, Joon Son Chung, Arda Senocak, (参考訳) トランスフォーマーは、CNNベースのアーキテクチャをオーディオ分類の新しい標準として急速に追い越してきた。 オーディオスペクトログラム変換器(AST)のようなトランスフォーマーベースのモデルは、CNNから固定サイズの入力パラダイムを継承する。 しかし,入力長がトレーニングによって異なる場合,ASTの性能劣化が生じる。 本稿では,ASTモデルを用いた可変長音声入力を,学習と推論の両方で利用するためのアプローチを提案する。 シーケンスパッキングを用いることで、トレーニング中の任意のオーディオ長を許容し、推論におけるすべての長さと解像度の柔軟性を提供する。 この柔軟性により、ElasticASTは様々な長さや解像度で評価機能を維持でき、特定の長さや解像度でトレーニングされた標準ASTと同じようなパフォーマンスを実現することができる。 さらに、ネイティブの長さのオーディオデータセットをトレーニングし、評価する際のElasticASTのパフォーマンスも向上している。

Transformers have rapidly overtaken CNN-based architectures as the new standard in audio classification. Transformer-based models, such as the Audio Spectrogram Transformers (AST), also inherit the fixed-size input paradigm from CNNs. However, this leads to performance degradation for ASTs in the inference when input lengths vary from the training. This paper introduces an approach that enables the use of variable-length audio inputs with AST models during both training and inference. By employing sequence packing, our method ElasticAST, accommodates any audio length during training, thereby offering flexibility across all lengths and resolutions at the inference. This flexibility allows ElasticAST to maintain evaluation capabilities at various lengths or resolutions and achieve similar performance to standard ASTs trained at specific lengths or resolutions. Moreover, experiments demonstrate ElasticAST's better performance when trained and evaluated on native-length audio datasets.
翻訳日:2024-07-12 16:21:02 公開日:2024-07-11
# ボディードチェーン・オブ・ソート推論によるロボット制御

Robotic Control via Embodied Chain-of-Thought Reasoning ( http://arxiv.org/abs/2407.08693v1 )

ライセンス: Link先を確認
Zawalski Michał, Chen William, Pertsch Karl, Mees Oier, Finn Chelsea, Levine Sergey, (参考訳) 学習したロボット制御ポリシーの重要な制限は、トレーニングデータの外部で一般化できないことである。 視覚言語行動モデル(VLA)に関する最近の研究は、学習されたロボットポリシーのバックボーンとして、大規模なインターネット事前学習された視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。 しかし、他の領域における大きな視覚言語モデルの最もエキサイティングな能力の1つは、複雑な問題を通して反復的に推論できる能力である。 同じ能力をロボティクスに持ち込んで、行動する前に与えられたタスクを推論することで、パフォーマンスを向上させるポリシーを実現することができるだろうか? チェーン・オブ・シークレット(CoT)スタイルのプロンプトの使用は、通常のVLAでは比較的単純なトレーニング例であるため、はるかに効果が低い。 さらに、通常のCoTでよく見られるように、サブタスクに関する純粋に意味論的推論は、感覚観察やロボットの状態に推論を根ざす必要があるロボットポリシーには不十分である。 この目的のために、我々はVLAのためのEmbodied Chain-of-Thought Reasoning (ECoT)を導入し、ロボットの動作を予測する前に、計画、サブタスク、動き、そしてオブジェクト境界ボックスやエンドエフェクタ位置のような視覚的に接地された特徴について推論する複数のステップを実行するようにVLAを訓練する。 大規模ロボットデータセット上でECoTのための合成トレーニングデータを生成するスケーラブルなパイプラインを設計する。 ECoTは、現在最強のオープンソースVLAポリシーであるOpenVLAの絶対的な成功率を、追加のロボットトレーニングデータなしで、挑戦的な一般化タスクに対して28%向上することを示した。 さらに、ECoTは、人間がポリシーの失敗を解釈し、自然言語を使って行動を修正するのを容易にする。

A key limitation of learned robot control policies is their inability to generalize outside their training data. Recent works on vision-language-action models (VLAs) have shown that the use of large, internet pre-trained vision-language models as the backbone of learned robot policies can substantially improve their robustness and generalization ability. Yet, one of the most exciting capabilities of large vision-language models in other domains is their ability to reason iteratively through complex problems. Can that same capability be brought into robotics to allow policies to improve performance by reasoning about a given task before acting? Naive use of "chain-of-thought" (CoT) style prompting is significantly less effective with standard VLAs because of the relatively simple training examples that are available to them. Additionally, purely semantic reasoning about sub-tasks, as is common in regular CoT, is insufficient for robot policies that need to ground their reasoning in sensory observations and the robot state. To this end, we introduce Embodied Chain-of-Thought Reasoning (ECoT) for VLAs, in which we train VLAs to perform multiple steps of reasoning about plans, sub-tasks, motions, and visually grounded features like object bounding boxes and end effector positions, before predicting the robot action. We design a scalable pipeline for generating synthetic training data for ECoT on large robot datasets. We demonstrate, that ECoT increases the absolute success rate of OpenVLA, the current strongest open-source VLA policy, by 28% across challenging generalization tasks, without any additional robot training data. Additionally, ECoT makes it easier for humans to interpret a policy's failures and correct its behavior using natural language.
翻訳日:2024-07-12 16:21:02 公開日:2024-07-11
# Cloud Atlas: 言語モデルと因果インサイトを用いたクラウドシステムの効率的なフォールトローカライゼーション

Cloud Atlas: Efficient Fault Localization for Cloud Systems using Language Models and Causal Insight ( http://arxiv.org/abs/2407.08694v1 )

ライセンス: Link先を確認
Zhiqiang Xie, Yujia Zheng, Lizi Ottens, Kun Zhang, Christos Kozyrakis, Jonathan Mace, (参考訳) 現代のクラウドシステムでは、実行時の障害とパフォーマンスの低下が一般的です。 クラウドプロバイダにとって、インシデントの根本原因を自動決定することが最重要であり、フォールトローカライゼーションの迅速化とタイムリーな解決のための迅速な診断とトリアージを可能にするため、信頼性と可用性を確保する。 最近の研究で探求された説得力ある解決策は、さまざまなクラウドパフォーマンスメトリクス間の関係を捉えるために因果グラフを使用した因果推論である。 しかし、効果的にするためには、システム開発者はシステムの因果グラフを正しく定義する必要がある。 あるいは、自動データ駆動アプローチは、インシデント固有の希少性のために、クラウドシステムに対して有効性が制限されている。 本研究では,クラウドシステムのための因果グラフを自動的に合成する新しいアプローチであるAtlasを紹介する。 Atlasは大規模言語モデル(LLM)を活用して、システムドキュメンテーション、テレメトリ、デプロイメントフィードバックを使用して因果グラフを生成する。 Atlasはデータ駆動因果発見技術と相補的であり、データ駆動検証ステップでAtlasをさらに強化します。 我々はAtlasをさまざまな障害局所化シナリオで評価し、Atlasがスケーラブルで一般化可能な方法で因果グラフを生成することができることを示す。

Runtime failure and performance degradation is commonplace in modern cloud systems. For cloud providers, automatically determining the root cause of incidents is paramount to ensuring high reliability and availability as prompt fault localization can enable faster diagnosis and triage for timely resolution. A compelling solution explored in recent work is causal reasoning using causal graphs to capture relationships between varied cloud system performance metrics. To be effective, however, systems developers must correctly define the causal graph of their system, which is a time-consuming, brittle, and challenging task that increases in difficulty for large and dynamic systems and requires domain expertise. Alternatively, automated data-driven approaches have limited efficacy for cloud systems due to the inherent rarity of incidents. In this work, we present Atlas, a novel approach to automatically synthesizing causal graphs for cloud systems. Atlas leverages large language models (LLMs) to generate causal graphs using system documentation, telemetry, and deployment feedback. Atlas is complementary to data-driven causal discovery techniques, and we further enhance Atlas with a data-driven validation step. We evaluate Atlas across a range of fault localization scenarios and demonstrate that Atlas is capable of generating causal graphs in a scalable and generalizable manner, with performance that far surpasses that of data-driven algorithms and is commensurate to the ground-truth baseline.
翻訳日:2024-07-12 16:21:02 公開日:2024-07-11
# より高速なアルゴリズムでT$-countを下げる

Lower $T$-count with faster algorithms ( http://arxiv.org/abs/2407.08695v1 )

ライセンス: Link先を確認
Vivien Vandaele, (参考訳) 量子回路を特徴付けるコスト指標の中で、その最小化はフォールトトレラント量子コンピューティングや量子回路シミュレーションなど、量子計算の様々な領域において特に重要であるため、T$カウントは最も重要な指標の1つである。 本研究では,実行時間の少ない効率的な$T$-countオプティマイザを提案することで,$T$-count削減問題に寄与する。 特に、様々な量子回路において、現在最高のT$カウント還元を提供するアルゴリズムであるTODDの複雑さを大幅に改善する。 また,アルゴリズムの修正により,T$ゲートの数が大幅に削減された場合も提案する。 さらに,さらに複雑性が低く,評価されたほとんどの量子回路の最先端技術よりも高い,あるいは同等の$T$カウントを実現するアルゴリズムを提案する。 また、アルゴリズムの実行後に得られる回路内の$T$ゲートの数は、$n(n + 1)/2 + 1$と、多項式時間で得られる最もよく知られた上界である、上界が$n(n + 1)/2 + 1$であることを示す。 このことから、Clifford$+T$回路における$T$ゲートの数に対して$(n + 1)(n + 2h)/2 + 1$の上限を導出する。

Among the cost metrics characterizing a quantum circuit, the $T$-count stands out as one of the most crucial as its minimization is particularly important in various areas of quantum computation such as fault-tolerant quantum computing and quantum circuit simulation. In this work, we contribute to the $T$-count reduction problem by proposing efficient $T$-count optimizers with low execution times. In particular, we greatly improve the complexity of TODD, an algorithm currently providing the best $T$-count reduction on various quantum circuits. We also propose some modifications to the algorithm which are leading to a significantly lower number of $T$ gates. In addition, we propose another algorithm which has an even lower complexity and that achieves a better or equal $T$-count than the state of the art on most quantum circuits evaluated. We also prove that the number of $T$ gates in the circuit obtained after executing our algorithms on a Hadamard-free circuit composed of $n$ qubits is upper bounded by $n(n + 1)/2 + 1$, which is the best known upper bound achievable in polynomial time. From this we derive an upper bound of $(n + 1)(n + 2h)/2 + 1$ for the number of $T$ gates in a Clifford$+T$ circuit where $h$ is the number of internal Hadamard gates in the circuit, i.e.\ the number of Hadamard gates lying between the first and the last $T$ gate of the circuit.
翻訳日:2024-07-12 16:21:02 公開日:2024-07-11
# 結合交換演算子と改良サブルーチンを用いたADAPT-VQEで要求されるリソースの削減

Reducing the Resources Required by ADAPT-VQE Using Coupled Exchange Operators and Improved Subroutines ( http://arxiv.org/abs/2407.08696v1 )

ライセンス: Link先を確認
Mafalda Ramôa, Panagiotis G. Anastasiou, Luis Paulo Santos, Nicholas J. Mayhall, Edwin Barnes, Sophia E. Economou, (参考訳) 適応変分量子アルゴリズムは、NISQ時代の量子優位性のための最良の可能性を提供する。 最初のアルゴリズムであるADAPT-VQEの登場以来、文献に多くの改良が加えられている。 我々は、ハードウェア上で最先端のADAPT-VQEを実行するコストを測定カウントと回路深さの観点から評価するために、新しい演算子プール(Coupled Exchange Operator (CEO) pool) と呼ぶ)と組み合わせた。 アルゴリズムの初期バージョンと比較して,これらの量子リソースの劇的な削減が示されている。 また、最先端のCEOであるADAPT-VQEは、すべての関連する指標において、最も広く認識されている静的VQEアンサッツであるUCCSDよりも優れています。

Adaptive variational quantum algorithms arguably offer the best prospects for quantum advantage in the NISQ era. Since the inception of the first such algorithm, ADAPT-VQE, many improvements have appeared in the literature. We combine the key improvements along with a novel operator pool -- which we term Coupled Exchange Operator (CEO) pool -- to assess the cost of running state-of-the-art ADAPT-VQE on hardware in terms of measurement counts and circuit depth. We show a dramatic reduction of these quantum resources compared to the early versions of the algorithm. We also find that our state-of-the-art CEO-ADAPT-VQE outperforms UCCSD, the most widely regarded static VQE ansatz, in all relevant metrics.
翻訳日:2024-07-12 16:21:02 公開日:2024-07-11
# モデルマージによる言語伝達におけるカタストロフィック・フォーミングの軽減

Mitigating Catastrophic Forgetting in Language Transfer via Model Merging ( http://arxiv.org/abs/2407.08699v1 )

ライセンス: Link先を確認
Anton Alexandrov, Veselin Raychev, Mark Niklas Müller, Ce Zhang, Martin Vechev, Kristina Toutanova, (参考訳) オープンウェイトな大規模言語モデル(LLM)は、英語の幅広いタスクでより印象的なパフォーマンスを達成するため、実践者はこれらのモデルを異なる言語に適応させることを目指している。 しかし、そのような言語適応は、しばしば、基礎モデルの能力を壊滅的に忘れ、結果のモデルの有用性を著しく制限する。 本稿では、複数のモデルを反復的にマージする新しい適応法であるブランチ・アンド・マージ(BaM)を提案し、利用可能なトレーニングデータのサブセットを微調整する。 BaMは、これが低等級であるが、より高い品質の重量変化をもたらすという洞察に基づいており、ターゲットドメインでの学習を維持しながら、ソースドメインの忘れを少なくする。 我々はブルガリア語とドイツ語に関する広範な実証研究において、BaMは、異なるモデルアーキテクチャにおける標準的事前学習と命令微調整の両方と比較して、ターゲットドメインのパフォーマンスをマッチングしたり改善したりしながら、忘れを著しく低減できることを示した。

As open-weight large language models (LLMs) achieve ever more impressive performances across a wide range of tasks in English, practitioners aim to adapt these models to different languages. However, such language adaptation is often accompanied by catastrophic forgetting of the base model's capabilities, severely limiting the usefulness of the resulting model. We address this issue by proposing Branch-and-Merge (BaM), a new adaptation method based on iteratively merging multiple models, fine-tuned on a subset of the available training data. BaM is based on the insight that this yields lower magnitude but higher quality weight changes, reducing forgetting of the source domain while maintaining learning on the target domain. We demonstrate in an extensive empirical study on Bulgarian and German that BaM can significantly reduce forgetting while matching or even improving target domain performance compared to both standard continued pretraining and instruction finetuning across different model architectures.
翻訳日:2024-07-12 16:21:02 公開日:2024-07-11
# Flex-TPU:実行時再構成可能なデータフローアーキテクチャを備えた柔軟なTPU

Flex-TPU: A Flexible TPU with Runtime Reconfigurable Dataflow Architecture ( http://arxiv.org/abs/2407.08700v1 )

ライセンス: Link先を確認
Mohammed Elbtity, Peyton Chandarana, Ramtin Zand, (参考訳) テンソル処理ユニット(TPU)は、データセンターや小さなMLアプリケーションで広く使われている機械学習(ML)アクセラレーターの1つである。 TPUはグラフィカル処理ユニット(GPU)など、従来のMLアクセラレータよりもいくつかの改善とアドバンテージを提供し、ディープニューラルネットワーク(DNN)の実行を通じて広く存在する行列行列行列および行列ベクトル乗算に必要な乗算累積(MAC)演算を実行するように設計されている。 このような改善には、データ再利用の最大化と、systolic配列アーキテクチャが提供する時間的データフローパラダイムを活用することにより、データ転送の最小化が含まれる。 この設計は大きなパフォーマンス上の利点をもたらすが、現在の実装は入力、出力、あるいは重み付けされたアーキテクチャからなる単一のデータフローに限定されている。 これにより、DNN推論の達成可能な性能を制限し、演算ユニットの利用を減らすことができる。 そのため、この作業はFlex-TPUと呼ばれる再構成可能なデータフローTPUを開発し、実行時に層ごとのデータフローを動的に変更できる。 実験では、Flex-TPUを複数のよく知られたMLワークロードにまたがる従来のTPU設計と比較し、Flex-TPUの有効性を徹底的に検証した。 その結果,Flex-TPUの設計は従来のTPUに比べて2.75倍の大幅な性能向上を実現している。

Tensor processing units (TPUs) are one of the most well-known machine learning (ML) accelerators utilized at large scale in data centers as well as in tiny ML applications. TPUs offer several improvements and advantages over conventional ML accelerators, like graphical processing units (GPUs), being designed specifically to perform the multiply-accumulate (MAC) operations required in the matrix-matrix and matrix-vector multiplies extensively present throughout the execution of deep neural networks (DNNs). Such improvements include maximizing data reuse and minimizing data transfer by leveraging the temporal dataflow paradigms provided by the systolic array architecture. While this design provides a significant performance benefit, the current implementations are restricted to a single dataflow consisting of either input, output, or weight stationary architectures. This can limit the achievable performance of DNN inference and reduce the utilization of compute units. Therefore, the work herein consists of developing a reconfigurable dataflow TPU, called the Flex-TPU, which can dynamically change the dataflow per layer during run-time. Our experiments thoroughly test the viability of the Flex-TPU comparing it to conventional TPU designs across multiple well-known ML workloads. The results show that our Flex-TPU design achieves a significant performance increase of up to 2.75x compared to conventional TPU, with only minor area and power overheads.
翻訳日:2024-07-12 16:21:02 公開日:2024-07-11
# Live2Diff:ビデオ拡散モデルにおける一方向注意によるライブストリーム翻訳

Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models ( http://arxiv.org/abs/2407.08701v1 )

ライセンス: Link先を確認
Zhening Xing, Gereon Fox, Yanhong Zeng, Xingang Pan, Mohamed Elgharib, Christian Theobalt, Kai Chen, (参考訳) 大規模言語モデルは、現在のトークンと以前のトークン間の相関をモデル化する、時間的に一方向の注意機構のおかげで、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。 しかし、ライブビデオ処理の必要性が高まっているにもかかわらず、ビデオストリーミングはいまだに調査されていない。 最先端のビデオ拡散モデルは、双方向の時間的注意を生かして、現在のフレームと周囲のフレーム(つまり未来を含む)の相関をモデル化し、ストリーミングビデオの処理を妨げている。 この問題に対処するために、Live2Diffは、一方向の時間的注意を伴うビデオ拡散モデルを設計するための最初の試みであり、特にライブストリーミングビデオ翻訳をターゲットとしている。 従来の研究と比較すると,従来のフレームといくつかの初期ウォームアップフレームを関連づけることで,時間的一貫性と滑らかさを保証できる。 さらに,KVキャッシュ機構とパイプライニングを備えた高効率な復調方式を用いて,対話型フレームレートでのストリーミングビデオ翻訳を容易にする。 広汎な実験により提案手法とパイプラインの有効性が示され, 時間的スムーズ性や効率性の観点から, 従来の手法よりも優れていた。

Large Language Models have shown remarkable efficacy in generating streaming data such as text and audio, thanks to their temporally uni-directional attention mechanism, which models correlations between the current token and previous tokens. However, video streaming remains much less explored, despite a growing need for live video processing. State-of-the-art video diffusion models leverage bi-directional temporal attention to model the correlations between the current frame and all the surrounding (i.e. including future) frames, which hinders them from processing streaming videos. To address this problem, we present Live2Diff, the first attempt at designing a video diffusion model with uni-directional temporal attention, specifically targeting live streaming video translation. Compared to previous works, our approach ensures temporal consistency and smoothness by correlating the current frame with its predecessors and a few initial warmup frames, without any future frames. Additionally, we use a highly efficient denoising scheme featuring a KV-cache mechanism and pipelining, to facilitate streaming video translation at interactive framerates. Extensive experiments demonstrate the effectiveness of the proposed attention mechanism and pipeline, outperforming previous methods in terms of temporal smoothness and/or efficiency.
翻訳日:2024-07-12 16:21:02 公開日:2024-07-11
# 超低温双極性ボースガスのスピン混合の生成と安定化

Production and stabilization of a spin mixture of ultracold dipolar Bose gases ( http://arxiv.org/abs/2407.08702v1 )

ライセンス: Link先を確認
Maxime Lecomte, Alexandre Journeaux, Julie Veschambre, Jean Dalibard, Raphael Lopes, (参考訳) 長距離相互作用を持つ超低温気体の混合は、量子物質の研究に新たな道を開くことが期待されている。 この研究の自然な候補は、大きな磁気モーメントを持つ原子種のスピン混合である。 しかし、そのようなアセンブリの寿命はスピンフリップ衝突で起こる双極子緩和によって強く影響を受ける。 ここでは、光誘起二次ゼーマン効果に対して暗黒状態として作用する、$^{162}$Dy原子の2つの最低ゼーマン状態からなる混合物の実験結果を示す。 干渉現象により, 非弾性過程の速度は, ウィグナーしきい値法に対して劇的に減少することを示した。 さらに,これらの状態間のs波相互作用を特徴付ける散乱長を決定した。

Mixtures of ultracold gases with long-range interactions are expected to open new avenues in the study of quantum matter. Natural candidates for this research are spin mixtures of atomic species with large magnetic moments. However, the lifetime of such assemblies can be strongly affected by the dipolar relaxation that occurs in spin-flip collisions. Here we present experimental results for a mixture composed of the two lowest Zeeman states of $^{162}$Dy atoms, that act as dark states with respect to a light-induced quadratic Zeeman effect. We show that, due to an interference phenomenon, the rate for such inelastic processes is dramatically reduced with respect to the Wigner threshold law. Additionally, we determine the scattering lengths characterizing the s-wave interaction between these states, providing all necessary data to predict the miscibility range of the mixture, depending on its dimensionality.
翻訳日:2024-07-12 16:21:02 公開日:2024-07-11
# カオス量子イジング鎖における測定誘起絡み合い遷移

Measurement-induced entanglement transition in chaotic quantum Ising chain ( http://arxiv.org/abs/2407.08703v1 )

ライセンス: Link先を確認
Manali Malakar, Marlon Brenes, Dvira Segal, Alessandro Silva, (参考訳) 観測された量子イジングモデルにおける測定誘起相転移の様々な摂動に対するロバスト性について,非エルミートハミルトニアンにより記述された非線形極限において数値的に検討する。 本研究では,モデルの可積分性や対称性を損なう摂動および測定プロトコルの変更について検討し,その結果として生じるカオスと解離スペクトル形成因子(DSFF)による可積分性の欠如を特徴付ける。 測定誘起相転移とその性質は、$\mathbb{Z_2}$対称性の積分性の欠如や破壊に大きく敏感であるように見えるが、逆から長手方向への測定ベースの変更により、相転移は完全に消滅する。

We numerically investigate the robustness against various perturbations of measurement-induced phase transition in monitored quantum Ising models in the no-click limit, where the dynamics is described by a non-Hermitian Hamiltonian. We study perturbations that break the integrability and/or the symmetry of the model, as well as modifications in the measurement protocol, characterizing the resulting chaos and lack of integrability through the Dissipative Spectral Form Factor (DSFF). We show that while the measurement-induced phase transition and its properties appear to be broadly insensitive to lack of integrability and breaking of the $\mathbb{Z_2}$ symmetry, a modification of the measurement basis from the transverse to the longitudinal direction makes the phase transition disappear altogether.
翻訳日:2024-07-12 16:21:02 公開日:2024-07-11
# ニューロモルフィックとエッジAIハードウェアにおけるハイブリッドSNNの効率的な展開に向けて

Towards Efficient Deployment of Hybrid SNNs on Neuromorphic and Edge AI Hardware ( http://arxiv.org/abs/2407.08704v1 )

ライセンス: Link先を確認
James Seekings, Peyton Chandarana, Mahsa Ardakani, MohammadReza Mohammadi, Ramtin Zand, (参考訳) 本稿では,ニューロモルフィックとエッジコンピューティングの相乗的ポテンシャルを考察し,動的視覚センサが捉えたデータ処理に適した多目的機械学習(ML)システムを構築する。 我々は、PyTorchとLavaフレームワークを使用して、スパイキングニューラルネットワーク(SNN)と人工ニューラルネットワーク(ANN)を混合してハイブリッドモデルを構築し、訓練する。 我々のハイブリッドアーキテクチャは、時間的特徴抽出のためのSNNと、分類のためのANNを統合している。 このようなハイブリッド構造をハードウェアに展開する上での課題を掘り下げる。 具体的には、IntelのNeuromorphic Processor Loihi(SNN用)とJetson Nano(ANN用)に個々のコンポーネントをデプロイする。 また、スパイキングから非スパイキング領域へデータを転送するアキュムレータ回路を提案する。 さらに、ニューロモルフィックおよびエッジAIハードウェアの異種システム上でハイブリッドSNN-ANNモデルの総合的な性能解析を行い、精度、レイテンシ、電力、エネルギー消費を評価する。 以上の結果から,ハイブリッドスパイクネットワークはすべての指標でベースラインANNモデルを超え,精度とレイテンシにおいてベースラインSNNモデルより優れていた。

This paper explores the synergistic potential of neuromorphic and edge computing to create a versatile machine learning (ML) system tailored for processing data captured by dynamic vision sensors. We construct and train hybrid models, blending spiking neural networks (SNNs) and artificial neural networks (ANNs) using PyTorch and Lava frameworks. Our hybrid architecture integrates an SNN for temporal feature extraction and an ANN for classification. We delve into the challenges of deploying such hybrid structures on hardware. Specifically, we deploy individual components on Intel's Neuromorphic Processor Loihi (for SNN) and Jetson Nano (for ANN). We also propose an accumulator circuit to transfer data from the spiking to the non-spiking domain. Furthermore, we conduct comprehensive performance analyses of hybrid SNN-ANN models on a heterogeneous system of neuromorphic and edge AI hardware, evaluating accuracy, latency, power, and energy consumption. Our findings demonstrate that the hybrid spiking networks surpass the baseline ANN model across all metrics and outperform the baseline SNN model in accuracy and latency.
翻訳日:2024-07-12 16:21:02 公開日:2024-07-11
# HiRes-LLaVA:高分解能大型ビジョンランゲージモデルにおけるフラグメンテーション入力の復元

HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models ( http://arxiv.org/abs/2407.08706v1 )

ライセンス: Link先を確認
Runhui Huang, Xinpeng Ding, Chunwei Wang, Jianhua Han, Yulong Liu, Hengshuang Zhao, Hang Xu, Lu Hou, Wei Zhang, Xiaodan Liang, (参考訳) 高解像度入力により、LVLM(Large Vision-Language Models)はより詳細な視覚的詳細を識別し、その理解能力を高めることができる。 高精細な入力によるトレーニングと計算コストを低減するため、スライディングウインドウを均一なパッチにスライスし、よく訓練された視覚エンコーダの入力サイズに適合させることが期待できる。 効率的ではあるが、このスライシング戦略は元の入力の断片化につながる。つまり、コンテキスト情報の連続性と空間幾何学はパッチ間で失われ、クロスパッチのコンテキスト認識や位置特化タスクのパフォーマンスに悪影響を及ぼす。 これらの欠点を克服するために,従来の文脈情報や幾何学的情報を変更することなく,高解像度入力の任意のサイズを効率的に処理できる新しいフレームワークであるHiRes-LLaVAを導入する。 HiRes-LLaVAは2つの革新的なコンポーネントから構成される。 i)スライスしたパッチを元の形式に再構築し、ダウンアップサンプリング層と畳み込み層を介して、グローバルおよびローカル両方の機能を効率的に抽出するSliceRestoreアダプタ (2)自己マイニングサンプリング装置は、自分自身に基づいて視覚トークンを圧縮し、トレーニングオーバーヘッドを低減しつつ、元のコンテキストと位置情報を保存する。 コンテキストフラグメンテーションの処理能力を評価するため,エッジ関連タスクと位置関連タスクからなる新しいベンチマークEntityGrid-QAを構築した。 我々の総合的な実験は、既存の公開ベンチマークとEntityGrid-QA、特にドキュメント指向タスクの両方においてHiRes-LLaVAの優位性を実証し、高解像度入力を処理するための新しい標準を確立する。

High-resolution inputs enable Large Vision-Language Models (LVLMs) to discern finer visual details, enhancing their comprehension capabilities. To reduce the training and computation costs caused by high-resolution input, one promising direction is to use sliding windows to slice the input into uniform patches, each matching the input size of the well-trained vision encoder. Although efficient, this slicing strategy leads to the fragmentation of original input, i.e., the continuity of contextual information and spatial geometry is lost across patches, adversely affecting performance in cross-patch context perception and position-specific tasks. To overcome these shortcomings, we introduce HiRes-LLaVA, a novel framework designed to efficiently process any size of high-resolution input without altering the original contextual and geometric information. HiRes-LLaVA comprises two innovative components: (i) a SliceRestore adapter that reconstructs sliced patches into their original form, efficiently extracting both global and local features via down-up-sampling and convolution layers, and (ii) a Self-Mining Sampler to compresses the vision tokens based on themselves, preserving the original context and positional information while reducing training overhead. To assess the ability of handling context fragmentation, we construct a new benchmark, EntityGrid-QA, consisting of edge-related and position-related tasks. Our comprehensive experiments demonstrate the superiority of HiRes-LLaVA on both existing public benchmarks and on EntityGrid-QA, particularly on document-oriented tasks, establishing new standards for handling high-resolution inputs.
翻訳日:2024-07-12 16:21:02 公開日:2024-07-11
# 文書ベースVQAモデルからトレーニングデータを抽出する

Extracting Training Data from Document-Based VQA Models ( http://arxiv.org/abs/2407.08707v1 )

ライセンス: Link先を確認
Francesco Pinto, Nathalie Rauschmayr, Florian Tramèr, Philip Torr, Federico Tombari, (参考訳) VLM(Vision-Language Models)は、文書ベースのビジュアル質問回答(画像として提供される入力文書の内容に関する問い合わせに応答する)において顕著な進歩を遂げている。 そこで本研究では,これらのモデルを用いて,学習サンプルに対する応答を記憶し,関連する視覚情報が削除された場合でも再学習することができることを示す。 これには、トレーニングセットで一度繰り返すPersonal Identible Information (PII)が含まれており、これらのモデルが記憶された機密情報を漏らし、したがってプライバシーリスクを引き起こす可能性があることを示している。 制御実験における情報の抽出可能性を定量的に測定し、一般化能力や記憶から生じる事例を区別する。 さらに、複数の最先端モデルの記憶に影響を与える要因について検討し、PIIの抽出性を実証的に防止する効果的なヒューリスティック対策を提案する。

Vision-Language Models (VLMs) have made remarkable progress in document-based Visual Question Answering (i.e., responding to queries about the contents of an input document provided as an image). In this work, we show these models can memorize responses for training samples and regurgitate them even when the relevant visual information has been removed. This includes Personal Identifiable Information (PII) repeated once in the training set, indicating these models could divulge memorised sensitive information and therefore pose a privacy risk. We quantitatively measure the extractability of information in controlled experiments and differentiate between cases where it arises from generalization capabilities or from memorization. We further investigate the factors that influence memorization across multiple state-of-the-art models and propose an effective heuristic countermeasure that empirically prevents the extractability of PII.
翻訳日:2024-07-12 16:21:02 公開日:2024-07-11
# eyeballvul: 野生の脆弱性検出のための将来のセキュリティベンチマーク

eyeballvul: a future-proof benchmark for vulnerability detection in the wild ( http://arxiv.org/abs/2407.08708v1 )

ライセンス: Link先を確認
Timothee Chauvin, (参考訳) 最近のLLMの長いコンテキストは、新しいユースケースを可能にした。 このタスクにおけるモデルパフォーマンスを評価するために,オープンソースのリポジトリで公開された脆弱性ストリームから毎週,言語モデルの脆弱性検出機能を大規模にテストするためのベンチマークである eyeballvul を紹介した。 ベンチマークは、異なるリポジトリ内のリビジョンのリストで構成されており、それぞれがそのリビジョンに存在する既知の脆弱性のリストと関連付けられている。 LLMベースのスコアラを使用して、モデルによって返される可能性のある脆弱性のリストと、リビジョン毎に既知の脆弱性のリストを比較する。 2024年7月時点で、Eyeballvulには6000以上のリビジョンと5,000以上のリポジトリに24,000以上の脆弱性があり、55GBほどのサイズである。

Long contexts of recent LLMs have enabled a new use case: asking models to find security vulnerabilities in entire codebases. To evaluate model performance on this task, we introduce eyeballvul: a benchmark designed to test the vulnerability detection capabilities of language models at scale, that is sourced and updated weekly from the stream of published vulnerabilities in open-source repositories. The benchmark consists of a list of revisions in different repositories, each associated with the list of known vulnerabilities present at that revision. An LLM-based scorer is used to compare the list of possible vulnerabilities returned by a model to the list of known vulnerabilities for each revision. As of July 2024, eyeballvul contains 24,000+ vulnerabilities across 6,000+ revisions and 5,000+ repositories, and is around 55GB in size.
翻訳日:2024-07-12 16:21:02 公開日:2024-07-11
# OmniNOCS:2次元物体の3次元浮揚のための統一型NOCSデータセットとモデル

OmniNOCS: A unified NOCS dataset and model for 3D lifting of 2D objects ( http://arxiv.org/abs/2407.08711v1 )

ライセンス: Link先を確認
Akshay Krishnan, Abhijit Kundu, Kevis-Kokitsi Maninis, James Hays, Matthew Brown, (参考訳) OmniNOCSは3次元正規化オブジェクトコーディネート空間(NOCS)マップとオブジェクトマスクと3次元バウンディングボックスアノテーションを備えた大規模モノクラーデータセットである。 OmniNOCSは既存のNOCSデータセット(NOCS-Real275、Wild6D)の20倍のオブジェクトクラスと200倍のインスタンスを持っている。 我々はOmniNOCSを用いて,NOCS予測モデル(NOCSformer)をトレーニングし,NOCS,インスタンスマスク,および多種多様なクラスにわたる2次元物体検出からのポーズを予測する。 これは、2Dボックスで誘導される場合に幅広いクラスに一般化できる最初のNOCSモデルである。 そこで我々は,立方体R-CNNのような最先端の3D検出手法に匹敵する結果が得られる3D指向境界ボックス予測の課題について,本モデルの評価を行った。 他の3D検出方法とは異なり、我々のモデルは詳細な3Dオブジェクトの形状とセグメンテーションも提供する。 我々は,OmniNOCSに基づくNOCS予測タスクのための新しいベンチマークを提案する。 私たちのデータセットとコードはプロジェクトのWebサイト(https://omninocs.github.io)に掲載されます。

We propose OmniNOCS, a large-scale monocular dataset with 3D Normalized Object Coordinate Space (NOCS) maps, object masks, and 3D bounding box annotations for indoor and outdoor scenes. OmniNOCS has 20 times more object classes and 200 times more instances than existing NOCS datasets (NOCS-Real275, Wild6D). We use OmniNOCS to train a novel, transformer-based monocular NOCS prediction model (NOCSformer) that can predict accurate NOCS, instance masks and poses from 2D object detections across diverse classes. It is the first NOCS model that can generalize to a broad range of classes when prompted with 2D boxes. We evaluate our model on the task of 3D oriented bounding box prediction, where it achieves comparable results to state-of-the-art 3D detection methods such as Cube R-CNN. Unlike other 3D detection methods, our model also provides detailed and accurate 3D object shape and segmentation. We propose a novel benchmark for the task of NOCS prediction based on OmniNOCS, which we hope will serve as a useful baseline for future work in this area. Our dataset and code will be at the project website: https://omninocs.github.io.
翻訳日:2024-07-12 16:21:02 公開日:2024-07-11
# GTA: 汎用ツールエージェントのベンチマーク

GTA: A Benchmark for General Tool Agents ( http://arxiv.org/abs/2407.08713v1 )

ライセンス: Link先を確認
Jize Wang, Zerun Ma, Yining Li, Songyang Zhang, Cailian Chen, Kai Chen, Xinyi Le, (参考訳) 汎用エージェントの開発において,大規模言語モデル(LLM)とさまざまなツールの統合に重点が置かれている。 これは、LLMのツール使用能力に課題をもたらす。 しかし、既存のツール使用評価と現実のシナリオの間には明らかなギャップがある。 現在の評価では、AI生成クエリ、単一ステップタスク、ダミーツール、テキストのみのインタラクションが頻繁に使用されており、エージェントの現実的な問題解決能力を効果的に明らかにしていない。 これを解決するために、ジェネラルツールエージェントのベンチマークであるGTAを提案する。 i) 実際のユーザクエリ: 単純な現実世界の目的を持つが、暗黙的なツール使用を伴う、人間によるクエリ。 2)実運用ツール:エージェントの実際のタスク実行性能を評価するために,認識,操作,論理,創造性といったカテゴリにまたがるツールを備えた評価プラットフォーム。 (iii)実際のマルチモーダル入力:空間シーン、Webページのスクリーンショット、テーブル、コードスニペット、印刷・手書きの材料など、実世界のシナリオと密接に整合するクエリコンテキストとして使用される、真のイメージファイル。 実世界の229のタスクと実行可能なツールチェーンを設計し、主要なLCMを評価した。 GPT-4 はタスクの 50% 以下であり,ほとんどの LLM は 25% 以下である。 この評価は、現実シナリオにおける現在のLLMのツール利用能力のボトルネックを明らかにし、汎用ツールエージェントを前進させるための今後の方向性を提供する。 コードとデータセットはhttps://github.com/open-compass/GTAで公開されている。

Significant focus has been placed on integrating large language models (LLMs) with various tools in developing general-purpose agents. This poses a challenge to LLMs' tool-use capabilities. However, there are evident gaps between existing tool-use evaluations and real-world scenarios. Current evaluations often use AI-generated queries, single-step tasks, dummy tools, and text-only interactions, failing to reveal the agents' real-world problem-solving abilities effectively. To address this, we propose GTA, a benchmark for General Tool Agents, featuring three main aspects: (i) Real user queries: human-written queries with simple real-world objectives but implicit tool-use, requiring the LLM to reason the suitable tools and plan the solution steps. (ii) Real deployed tools: an evaluation platform equipped with tools across perception, operation, logic, and creativity categories to evaluate the agents' actual task execution performance. (iii) Real multimodal inputs: authentic image files, such as spatial scenes, web page screenshots, tables, code snippets, and printed/handwritten materials, used as the query contexts to align with real-world scenarios closely. We design 229 real-world tasks and executable tool chains to evaluate mainstream LLMs. Our findings show that real-world user queries are challenging for existing LLMs, with GPT-4 completing less than 50% of the tasks and most LLMs achieving below 25%. This evaluation reveals the bottlenecks in the tool-use capabilities of current LLMs in real-world scenarios, which provides future direction for advancing general-purpose tool agents. The code and dataset are available at https://github.com/open-compass/GTA.
翻訳日:2024-07-12 16:09:12 公開日:2024-07-11
# IoTデバイスにおけるエネルギー効率の良い時系列アプリケーションのためのセンサ対応分類器

Sensor-Aware Classifiers for Energy-Efficient Time Series Applications on IoT Devices ( http://arxiv.org/abs/2407.08715v1 )

ライセンス: Link先を確認
Dina Hussein, Lubah Nelson, Ganapati Bhat, (参考訳) 時系列データ処理は、健康モニタリング、環境モニタリング、デジタル農業など、多くの実世界のアプリケーションにおいて重要なコンポーネントである。 これらのアプリケーションは、センサデータの異なるウィンドウ(例:数秒)を収集し、環境を評価するために処理する。 機械学習(ML)モデルは、分類の一般化能力のため、時系列アプリケーションに採用されている。 最先端の時系列アプリケーションは、MLアルゴリズムを使用してデータを処理する前に、センサデータウィンドウ全体が利用可能になるのを待つ。 しかし、全ての状況が正確な推論を行うために完全なセンサーウィンドウの処理を必要とするわけではない。 例えば、アクティビティ認識では、座位と立位は部分的なウィンドウで推測できる。 そこで本研究では, センサウィンドウを内蔵した早期出口分類器を用いて, 精度を維持しつつ, エネルギー消費を最小限に抑えることを提案する。 具体的には、まず複数のアーリーエグジットを利用して、ウィンドウで利用可能なデータ量を順次増加させます。 早期出口が信頼度の高い推論を提供する場合、ラベルを返却し、センサーの低電力モードに入る。 提案手法は, 時系列アプリケーションにおいて, 大幅な省エネを実現する可能性を秘めている。 我々は、ニューラルネットワークとランダム森林分類器を用いて、我々のアプローチを評価する。 6つのデータセットを用いて評価した結果,提案手法により平均50~60%の省エネが可能であり,精度に影響を与えないことがわかった。 省エネにより、遠隔地において限られたエネルギー利用量で時系列の応用が可能になる。

Time-series data processing is an important component of many real-world applications, such as health monitoring, environmental monitoring, and digital agriculture. These applications collect distinct windows of sensor data (e.g., few seconds) and process them to assess the environment. Machine learning (ML) models are being employed in time-series applications due to their generalization abilities for classification. State-of-the-art time-series applications wait for entire sensor data window to become available before processing the data using ML algorithms, resulting in high sensor energy consumption. However, not all situations require processing full sensor window to make accurate inference. For instance, in activity recognition, sitting and standing activities can be inferred with partial windows. Using this insight, we propose to employ early exit classifiers with partial sensor windows to minimize energy consumption while maintaining accuracy. Specifically, we first utilize multiple early exits with successively increasing amount of data as they become available in a window. If early exits provide inference with high confidence, we return the label and enter low power mode for sensors. The proposed approach has potential to enable significant energy savings in time series applications. We utilize neural networks and random forest classifiers to evaluate our approach. Our evaluations with six datasets show that the proposed approach enables up to 50-60% energy savings on average without any impact on accuracy. The energy savings can enable time-series applications in remote locations with limited energy availability.
翻訳日:2024-07-12 16:09:12 公開日:2024-07-11
# 大規模言語モデルにおけるデータ汚染の分類

A Taxonomy for Data Contamination in Large Language Models ( http://arxiv.org/abs/2407.08716v1 )

ライセンス: Link先を確認
Medha Palavalli, Amanda Bertsch, Matthew R. Gormley, (参考訳) 広範囲なWebコーパスで事前訓練された大規模な言語モデルは、幅広い下流タスクで顕著なパフォーマンスを示している。 しかし、データ汚染が懸念され、事前学習コーパスに評価データセットが組み込まれ、モデル性能が膨らむ。 このようなデータを検出・除去するプロセスである除染は潜在的な解決策であるが、これらの汚染物質はテストセットの変更バージョンから派生し、除染中の検出を避けることができる。 下流タスクにおける言語モデルの性能に異なる種類の汚染がどのような影響を及ぼすかは、完全には理解されていない。 プレトレーニング期間中のLSMによる各種汚染を分類し,最もリスクの高いタイプを同定する分類法を提案する。 我々は,汚染が2つの重要なNLPタスク(要約と質問応答)に与える影響を分析する。

Large language models pretrained on extensive web corpora demonstrate remarkable performance across a wide range of downstream tasks. However, a growing concern is data contamination, where evaluation datasets may be contained in the pretraining corpus, inflating model performance. Decontamination, the process of detecting and removing such data, is a potential solution; yet these contaminants may originate from altered versions of the test set, evading detection during decontamination. How different types of contamination impact the performance of language models on downstream tasks is not fully understood. We present a taxonomy that categorizes the various types of contamination encountered by LLMs during the pretraining phase and identify which types pose the highest risk. We analyze the impact of contamination on two key NLP tasks -- summarization and question answering -- revealing how different types of contamination influence task performance during evaluation.
翻訳日:2024-07-12 16:09:12 公開日:2024-07-11
# WhisperNetV2:SlowFast Siamese Network for Lip-based Biometrics

WhisperNetV2: SlowFast Siamese Network For Lip-Based Biometrics ( http://arxiv.org/abs/2407.08717v1 )

ライセンス: Link先を確認
Abdollah Zakeri, Hamid Hassanpour, Mohammad Hossein Khosravi, Amir Masoud Nourollah, (参考訳) リップベースの生体認証(LBBA)は、過去10年間に多くの研究者を惹きつけてきた。 唇は、生理的特性と行動的特性の両方を兼ね備えたツインバイオメトリックスであるため、バイオメトリック研究者にとって特に興味深い。 LBBAで非常に貴重な研究が行われたが、LBBAのビデオ取得ステップにおいてクライアントの異なる感情を考慮せず、クライアントの表情や発話テンポに影響を与える可能性がある。 我々はWhisperNetV2という新しいネットワーク構造を提案し、WhisperNetと呼ばれるネットワークを拡張した。 提案ネットワークは,3つのSlowFastネットワークを組込みネットワークと同一の3重項損失を持つディープ・シームズ構造を利用する。 SlowFast ネットワークは,高速経路が高いフレームレートと低チャネル容量で動作関連特徴(行動唇運動)を抽出するので,我々の課題に優れた候補となる。 遅い経路は、低いフレームレートと高いチャネル容量で視覚的特徴(生理的唇の外観)を抽出する。 オープンセットプロトコルを用いて、CREMA-Dデータセットを用いてネットワークをトレーニングし、テストセットで0.005のEER(Equal Error Rate)を取得しました。 得られたEERは最も類似したLBBA法よりも小さいので,本手法は最先端のLBBA法とみなすことができる。

Lip-based biometric authentication (LBBA) has attracted many researchers during the last decade. The lip is specifically interesting for biometric researchers because it is a twin biometric with the potential to function both as a physiological and a behavioral trait. Although much valuable research was conducted on LBBA, none of them considered the different emotions of the client during the video acquisition step of LBBA, which can potentially affect the client's facial expressions and speech tempo. We proposed a novel network structure called WhisperNetV2, which extends our previously proposed network called WhisperNet. Our proposed network leverages a deep Siamese structure with triplet loss having three identical SlowFast networks as embedding networks. The SlowFast network is an excellent candidate for our task since the fast pathway extracts motion-related features (behavioral lip movements) with a high frame rate and low channel capacity. The slow pathway extracts visual features (physiological lip appearance) with a low frame rate and high channel capacity. Using an open-set protocol, we trained our network using the CREMA-D dataset and acquired an Equal Error Rate (EER) of 0.005 on the test set. Considering that the acquired EER is less than most similar LBBA methods, our method can be considered as a state-of-the-art LBBA method.
翻訳日:2024-07-12 16:09:12 公開日:2024-07-11
# カメラ1台によるロボットの3次元表現と制御

Unifying 3D Representation and Control of Diverse Robots with a Single Camera ( http://arxiv.org/abs/2407.08722v1 )

ライセンス: Link先を確認
Sizhe Lester Li, Annan Zhang, Boyuan Chen, Hanna Matusik, Chao Liu, Daniela Rus, Vincent Sitzmann, (参考訳) 自然生物の複雑な構造と多様な機能を反映することは、ロボット工学における長年の課題である。 現代の製造技術は、実現可能なハードウェアを劇的に拡張してきたが、これらのシステムをデプロイするには、望ましい動作をアクチュエータコマンドに変換する制御ソフトウェアが必要である。 従来のロボットは、関節を介して接続された剛体リンクとして容易にモデル化できるが、多素材または軟質で、知覚能力が欠如しており、使用によって材料特性を変化させる可能性のある、バイオインスパイアされたロボットをモデル化し、制御することは、依然としてオープンな課題である。 本稿では,ロボットを視覚のみからモデル化し,制御することを自律的に学習するアーキテクチャであるNeural Jacobian Fieldsを紹介する。 提案手法では,ロボットの素材,動作,感覚に関する仮定は行わず,制御に1台のカメラしか必要とせず,ランダムコマンドの実行を観察することで,専門家の介入なしにロボットを制御できることを学習する。 本研究では,動作,材料,製作,コストの異なる多様なロボットマニピュレータに対して,本手法を実証する。 提案手法は,正確なクローズドループ制御を実現し,各ロボットの因果動的構造を復元する。 汎用カメラを唯一のセンサーとするロボット制御を可能にすることで、ロボットシステムの設計空間を劇的に拡大し、ロボット自動化の障壁を低くする出発点になることを期待している。

Mirroring the complex structures and diverse functions of natural organisms is a long-standing challenge in robotics. Modern fabrication techniques have dramatically expanded feasible hardware, yet deploying these systems requires control software to translate desired motions into actuator commands. While conventional robots can easily be modeled as rigid links connected via joints, it remains an open challenge to model and control bio-inspired robots that are often multi-material or soft, lack sensing capabilities, and may change their material properties with use. Here, we introduce Neural Jacobian Fields, an architecture that autonomously learns to model and control robots from vision alone. Our approach makes no assumptions about the robot's materials, actuation, or sensing, requires only a single camera for control, and learns to control the robot without expert intervention by observing the execution of random commands. We demonstrate our method on a diverse set of robot manipulators, varying in actuation, materials, fabrication, and cost. Our approach achieves accurate closed-loop control and recovers the causal dynamic structure of each robot. By enabling robot control with a generic camera as the only sensor, we anticipate our work will dramatically broaden the design space of robotic systems and serve as a starting point for lowering the barrier to robotic automation.
翻訳日:2024-07-12 16:09:12 公開日:2024-07-11
# 離散時間確率最適化アルゴリズムのための位相一般化境界

Topological Generalization Bounds for Discrete-Time Stochastic Optimization Algorithms ( http://arxiv.org/abs/2407.08723v1 )

ライセンス: Link先を確認
Rayna Andreeva, Benjamin Dupuis, Rik Sarkar, Tolga Birdal, Umut Şimşekli, (参考訳) 本稿では,最近のディープニューラルネットワーク(DNN)における一般化ギャップと強い相関関係を示す,厳密で計算効率のよいトポロジに基づく複雑性概念を提案する。 DNNは、顕著な一般化特性を示すが、これらの能力の源泉は、確立された統計的学習理論を否定し、解明されたままである。 近年の研究では、訓練軌跡の性質が一般化の指標であることが示されている。 この知見に基づいて、最先端の手法はこれらの軌跡、特にそのフラクタル次元の位相を利用して一般化を定量化している。 既存のほとんどの研究は、連続または無限時間トレーニングのダイナミクスを仮定し、テストデータにアクセスせずに正確な一般化を予測できる実用的な推定器の開発を複雑にすることで、この量を計算する。 本稿では,学習軌跡の離散時間特性を尊重し,トポロジカルデータ解析ツールに許容できるトポロジカル量について考察する。 これは新しい信頼性トポロジカル複雑性測度の族に結びつき、一般化誤差を証明し、制限的な幾何学的仮定の必要性を排除した。 これらの測度は計算に適しており、一般化指標の計算には単純だが効果的なアルゴリズムを提案することができる。 さらに、フレキシブルなフレームワークは、さまざまなドメイン、タスク、アーキテクチャに拡張できます。 提案手法は, トランスフォーマーやディープグラフネットワークなどの業界標準アーキテクチャにおける一般化誤差と高い相関性を示す。 私たちのアプローチは、さまざまなデータセット、モデル、オプティマイザにわたる既存のトポロジカル境界を一貫して上回り、複雑性測定の実践的妥当性と有効性を強調します。

We present a novel set of rigorous and computationally efficient topology-based complexity notions that exhibit a strong correlation with the generalization gap in modern deep neural networks (DNNs). DNNs show remarkable generalization properties, yet the source of these capabilities remains elusive, defying the established statistical learning theory. Recent studies have revealed that properties of training trajectories can be indicative of generalization. Building on this insight, state-of-the-art methods have leveraged the topology of these trajectories, particularly their fractal dimension, to quantify generalization. Most existing works compute this quantity by assuming continuous- or infinite-time training dynamics, complicating the development of practical estimators capable of accurately predicting generalization without access to test data. In this paper, we respect the discrete-time nature of training trajectories and investigate the underlying topological quantities that can be amenable to topological data analysis tools. This leads to a new family of reliable topological complexity measures that provably bound the generalization error, eliminating the need for restrictive geometric assumptions. These measures are computationally friendly, enabling us to propose simple yet effective algorithms for computing generalization indices. Moreover, our flexible framework can be extended to different domains, tasks, and architectures. Our experimental results demonstrate that our new complexity measures correlate highly with generalization error in industry-standards architectures such as transformers and deep graph networks. Our approach consistently outperforms existing topological bounds across a wide range of datasets, models, and optimizers, highlighting the practical relevance and effectiveness of our complexity measures.
翻訳日:2024-07-12 16:09:12 公開日:2024-07-11
# MetaUrban: 都市空間における体操AIのシミュレーションプラットフォーム

MetaUrban: A Simulation Platform for Embodied AI in Urban Spaces ( http://arxiv.org/abs/2407.08725v1 )

ライセンス: Link先を確認
Wayne Wu, Honglin He, Yiran Wang, Chenda Duan, Jack He, Zhizheng Liu, Quanyi Li, Bolei Zhou, (参考訳) 街並みや広場のような公共の都市空間は、住民に役立ち、活気のある変化に社会生活を適応させる。 最近のロボティクスとエンボディードAIの進歩により、公共の都市空間はもはや人間専用ではない。 フードデリバリーロボットと電動車椅子は歩道を歩行者と共有し始めている。 都市空間の混雑する街路を走行する際には,これらのモバイル機器の汎用性と安全性の確保が不可欠である。 本稿では,都市空間におけるEmbodied AI研究のための合成シミュレーションプラットフォームであるMetaUrbanを紹介する。 MetaUrbanは、多数の地上計画、オブジェクト配置、歩行者、脆弱な道路利用者、その他の移動エージェントの外観とダイナミクスをカバーし、構成要素から無限に多くのインタラクティブな都市シーンを構築することができる。 我々は,MetaUrbanを用いてAI研究を具体化するためのパイロット研究として,ポイントナビゲーションとソーシャルナビゲーションタスクを設計し,強化学習と模倣学習の様々な基盤を確立する。 実験により、シミュレーション環境の組成特性は、訓練された移動体エージェントの一般化性と安全性を大幅に向上させることができることが示された。 MetaUrbanは、より多くの研究機会を提供し、都市部における安全で信頼性の高いインボディードAIを育むために、一般公開される。

Public urban spaces like streetscapes and plazas serve residents and accommodate social life in all its vibrant variations. Recent advances in Robotics and Embodied AI make public urban spaces no longer exclusive to humans. Food delivery bots and electric wheelchairs have started sharing sidewalks with pedestrians, while diverse robot dogs and humanoids have recently emerged in the street. Ensuring the generalizability and safety of these forthcoming mobile machines is crucial when navigating through the bustling streets in urban spaces. In this work, we present MetaUrban, a compositional simulation platform for Embodied AI research in urban spaces. MetaUrban can construct an infinite number of interactive urban scenes from compositional elements, covering a vast array of ground plans, object placements, pedestrians, vulnerable road users, and other mobile agents' appearances and dynamics. We design point navigation and social navigation tasks as the pilot study using MetaUrban for embodied AI research and establish various baselines of Reinforcement Learning and Imitation Learning. Experiments demonstrate that the compositional nature of the simulated environments can substantially improve the generalizability and safety of the trained mobile agents. MetaUrban will be made publicly available to provide more research opportunities and foster safe and trustworthy embodied AI in urban spaces.
翻訳日:2024-07-12 16:09:12 公開日:2024-07-11
# Map It Anywhere (MIA):大規模公開データを用いた鳥の眼球図の作成

Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data ( http://arxiv.org/abs/2407.08726v1 )

ライセンス: Link先を確認
Cherie Ho, Jiaye Zou, Omar Alama, Sai Mitheran Jagadesh Kumar, Benjamin Chiang, Taneesh Gupta, Chen Wang, Nikhil Keetha, Katia Sycara, Sebastian Scherer, (参考訳) トップダウンのBird's Eye View (BEV)マップは、下流タスクの豊かさと柔軟性のために、地上ロボットナビゲーションの一般的な表現である。 最近の手法では、ファーストパーソンビュー(FPV)画像からBEVマップを予測することが約束されているが、その一般化可能性は、現在の自動運転車ベースのデータセットによってキャプチャされた小さな領域に限られている。 この文脈では、大規模なクラウドソースマッピングプラットフォームであるFPVイメージのMapillaryとBEVセマンティックマップのOpenStreetMapを使って、よりスケーラブルなマップ予測を実現することができることを示す。 既存のオープンソースの地図プラットフォームからラベル付き地図予測データのシームレスなキュレーションとモデリングを可能にするデータエンジンであるMap It Anywhere (MIA)を紹介する。 MIAデータエンジンを使用して、さまざまな地理、風景、環境要因、カメラモデル、キャプチャーシナリオを含む120万対のFPVイメージとBEVマップのデータセットを自動的に収集する簡単さを表示します。 さらに、BEVマップ予測のために、このデータに基づいて、単純なカメラモデルに依存しないモデルをトレーニングする。 確立されたベンチマークとデータセットを用いた大規模な評価の結果,MIAによって算出されたデータは,既存のデータセットでトレーニングされたベースラインを35%超過したゼロショット性能で,一般化可能なBEVマップ予測のための効果的な事前学習を可能にすることが示された。 我々の分析は、より堅牢な自律ナビゲーションを実現するために、一般化可能なBEV知覚を開発、テストするために、大規模な公開マップを使用することの約束を強調している。

Top-down Bird's Eye View (BEV) maps are a popular representation for ground robot navigation due to their richness and flexibility for downstream tasks. While recent methods have shown promise for predicting BEV maps from First-Person View (FPV) images, their generalizability is limited to small regions captured by current autonomous vehicle-based datasets. In this context, we show that a more scalable approach towards generalizable map prediction can be enabled by using two large-scale crowd-sourced mapping platforms, Mapillary for FPV images and OpenStreetMap for BEV semantic maps. We introduce Map It Anywhere (MIA), a data engine that enables seamless curation and modeling of labeled map prediction data from existing open-source map platforms. Using our MIA data engine, we display the ease of automatically collecting a dataset of 1.2 million pairs of FPV images & BEV maps encompassing diverse geographies, landscapes, environmental factors, camera models & capture scenarios. We further train a simple camera model-agnostic model on this data for BEV map prediction. Extensive evaluations using established benchmarks and our dataset show that the data curated by MIA enables effective pretraining for generalizable BEV map prediction, with zero-shot performance far exceeding baselines trained on existing datasets by 35%. Our analysis highlights the promise of using large-scale public maps for developing & testing generalizable BEV perception, paving the way for more robust autonomous navigation.
翻訳日:2024-07-12 16:09:12 公開日:2024-07-11
# BiEquiFormer: グローバルポイントクラウド登録のためのバイ平等表現

BiEquiFormer: Bi-Equivariant Representations for Global Point Cloud Registration ( http://arxiv.org/abs/2407.08729v1 )

ライセンス: Link先を確認
Stefanos Pertigkiozoglou, Evangelos Chatzipantazis, Kostas Daniilidis, (参考訳) 本論文の目的は,スキャンの初期ポーズによらず,点雲間の最適アライメントを見つけること,すなわち,点雲登録(PCR)の問題に対処することである。 この問題は、計算の制約によって古典的な最適化手法が難しいことで有名である。 まず、最先端のディープラーニング手法は、点雲を任意に空間に配置した場合、大きな性能劣化に悩まされることを示す。 そこで我々は,この課題を解決するために,‘textit{equivariant Deep Learning} を用いることを提案し,PCRの特異な二変量特性を特徴付ける。 次に,BiEquiformer を新規でスケーラブルな \textit{bi-equivariant} パイプライン,すなわち入力点雲の独立変換に同値なパイプラインとして設計する。 単純なアプローチでポイントクラウドを独立に処理する一方で、両方のポイントクラウドから情報を融合する表現力のあるバイ平等なレイヤを設計します。 これにより,高品質なスーパーポイント対応を抽出し,ロバストなポイントクラウド登録を行うことができる。 本手法は,3DMatchと3DLoMatchデータセットの両方のロバストな設定において,標準設定において同等の性能と優れた性能を達成することを示す。

The goal of this paper is to address the problem of \textit{global} point cloud registration (PCR) i.e., finding the optimal alignment between point clouds irrespective of the initial poses of the scans. This problem is notoriously challenging for classical optimization methods due to computational constraints. First, we show that state-of-the-art deep learning methods suffer from huge performance degradation when the point clouds are arbitrarily placed in space. We propose that \textit{equivariant deep learning} should be utilized for solving this task and we characterize the specific type of bi-equivariance of PCR. Then, we design BiEquiformer a novel and scalable \textit{bi-equivariant} pipeline i.e. equivariant to the independent transformations of the input point clouds. While a naive approach would process the point clouds independently we design expressive bi-equivariant layers that fuse the information from both point clouds. This allows us to extract high-quality superpoint correspondences and in turn, robust point-cloud registration. Extensive comparisons against state-of-the-art methods show that our method achieves comparable performance in the canonical setting and superior performance in the robust setting in both the 3DMatch and the challenging low-overlap 3DLoMatch dataset.
翻訳日:2024-07-12 16:09:12 公開日:2024-07-11
# デプロイにおけるディープニューラルネットワークの評価(比較と再現性の検討)

Evaluating Deep Neural Networks in Deployment (A Comparative and Replicability Study) ( http://arxiv.org/abs/2407.08730v1 )

ライセンス: Link先を確認
Eduard Pinconschi, Divya Gopinath, Rui Abreu, Corina S. Pasareanu, (参考訳) ディープニューラルネットワーク(DNN)は、安全クリティカルなアプリケーションでますます利用されているため、信頼性に対する懸念が高まっている。 高度に訓練された高性能ネットワークでさえ100%正確ではない。 しかし,本質的な真実を示さずに,展開中の行動を予測することは極めて困難である。 本稿では,DNNのデプロイメントにおける信頼性を評価するために提案されている最近のアプローチについて,比較と再現性について検討する。 複製パッケージ上でこれらのアプローチの結果を実行して再現することは困難であり、それ自身以外のアーティファクト上でも実行することがさらに困難であることに気付きました。 さらに、明確に定義された評価指標が欠如していることから、アプローチの有効性を比較することは困難である。 我々の研究コミュニティでは、安全クリティカルドメインにおけるニューラルネットワークの信頼性を評価するための音響技術を得るために、より多くの努力が必要であることを示唆している。 この目的のために,検討されたアプローチを取り入れた評価フレームワークを提供し,共通指標を用いて,共通ベンチマークの評価を可能にする。

As deep neural networks (DNNs) are increasingly used in safety-critical applications, there is a growing concern for their reliability. Even highly trained, high-performant networks are not 100% accurate. However, it is very difficult to predict their behavior during deployment without ground truth. In this paper, we provide a comparative and replicability study on recent approaches that have been proposed to evaluate the reliability of DNNs in deployment. We find that it is hard to run and reproduce the results for these approaches on their replication packages and even more difficult to run them on artifacts other than their own. Further, it is difficult to compare the effectiveness of the approaches, due to the lack of clearly defined evaluation metrics. Our results indicate that more effort is needed in our research community to obtain sound techniques for evaluating the reliability of neural networks in safety-critical domains. To this end, we contribute an evaluation framework that incorporates the considered approaches and enables evaluation on common benchmarks, using common metrics.
翻訳日:2024-07-12 16:09:12 公開日:2024-07-11
# あなたのモデルは本当に良い数学的推論者なのか?チェックリストによる数学的推論の評価

Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist ( http://arxiv.org/abs/2407.08733v1 )

ライセンス: Link先を確認
Zihao Zhou, Shudong Liu, Maizhen Ning, Wei Liu, Jindong Wang, Derek F. Wong, Xiaowei Huang, Qiufeng Wang, Kaizhu Huang, (参考訳) 例外的数学的推論能力は、大きな言語モデル(LLM)のパワーを示す重要な特徴の1つである。 LLMの数学的能力を包括的に定義し評価し、現実のシナリオにおけるユーザエクスペリエンスを反映する方法が重要な問題となっている。 現在のベンチマークは主に問題解決能力に重点を置いており、これはモデルオーバーフィットのかなりのリスクを示し、真の数学的推論能力の正確な表現に失敗する。 本稿では、モデルが本当に問題を理解しているなら、様々なタスクにまたがって頑健かつ容易に適用されるべきである、と論じる。 そこで本研究では,タスクの一般化とロバスト性の検証のためのよく設計されたチェックリストであるMATHCHECKと,チェックリストを効率的に生成する自動ツールを紹介する。 MATHCHECKには、複数の数学的推論タスクとロバストネステストタイプが含まれており、数学的推論能力と振る舞いテストの両方の包括的な評価を容易にする。 MATHCHECKを利用すると、MATHCHECK-GSMとMATHCHECK-GEOを開発し、GSM8k、GeoQA、UniGeo、Geometry3Kなどのベンチマークのアップグレード版として機能する。 我々はMATHCHECK-GSMとMATHCHECK-GEOを採用し、20 LLMと11 MLLMの総合的な数学的推論能力を評価した。 以上の結果から, GPT-4o などのフロンティア LLM はチェックリストの様々な能力に優れ続けているが,他のモデルファミリーでは顕著な低下がみられた。 さらに、従来の数学ベンチマークと比較すると、MATHCHECKは真の数学的能力をよりよく反映し、数学的知性をより線形に表現し、設計を支援することが示されている。 MATHCHECKでは、詳細な行動分析を行い、モデルについて深く研究することができる。

Exceptional mathematical reasoning ability is one of the key features that demonstrate the power of large language models (LLMs). How to comprehensively define and evaluate the mathematical abilities of LLMs, and even reflect the user experience in real-world scenarios, has emerged as a critical issue. Current benchmarks predominantly concentrate on problem-solving capabilities, which presents a substantial risk of model overfitting and fails to accurately represent genuine mathematical reasoning abilities. In this paper, we argue that if a model really understands a problem, it should be robustly and readily applied across a diverse array of tasks. Motivated by this, we introduce MATHCHECK, a well-designed checklist for testing task generalization and reasoning robustness, as well as an automatic tool to generate checklists efficiently. MATHCHECK includes multiple mathematical reasoning tasks and robustness test types to facilitate a comprehensive evaluation of both mathematical reasoning ability and behavior testing. Utilizing MATHCHECK, we develop MATHCHECK-GSM and MATHCHECK-GEO to assess mathematical textual reasoning and multi-modal reasoning capabilities, respectively, serving as upgraded versions of benchmarks including GSM8k, GeoQA, UniGeo, and Geometry3K. We adopt MATHCHECK-GSM and MATHCHECK-GEO to evaluate over 20 LLMs and 11 MLLMs, assessing their comprehensive mathematical reasoning abilities. Our results demonstrate that while frontier LLMs like GPT-4o continue to excel in various abilities on the checklist, many other model families exhibit a significant decline. Further experiments indicate that, compared to traditional math benchmarks, MATHCHECK better reflects true mathematical abilities and represents mathematical intelligence more linearly, thereby supporting our design. On our MATHCHECK, we can easily conduct detailed behavior analysis to deeply investigate models.
翻訳日:2024-07-12 16:09:12 公開日:2024-07-11
# Transformer Circuit Faithfulness Metrics is Robust

Transformer Circuit Faithfulness Metrics are not Robust ( http://arxiv.org/abs/2407.08734v1 )

ライセンス: Link先を確認
Joseph Miller, Bilal Chughtai, William Saunders, (参考訳) 機械論的解釈可能性の研究は、ニューラルネットワーク内に存在する学習アルゴリズムをリバースエンジニアリングしようとする。 この研究の焦点は、特定のタスクの振る舞いを説明するフルモデルのサブグラフである「サーキット」を見つけることである。しかし、そのようなサーキットのパフォーマンスをどのように測定するか?以前の研究では、サーキットがフルモデルのパフォーマンスを再現する度合いである「フェイントフルネス」を計測しようとした。 そこで本研究では,回路の忠実度を設計する上で,モデルの計算の一部を損なうことにより,回路の忠実度を計測する実験について検討する。 また,既存手法はアブレーション法における顕著な変化に非常に敏感であることが示唆された。 既存の回路忠実度スコアは、研究者の方法論的選択と回路の実際の構成要素の両方を反映している。 機械的解釈可能性の研究の最終的な目標は、ニューラルネットワークを理解することです。 我々は、幅広いアブレーション手法と回路発見アルゴリズムの高効率実装を含む、https://github.com/UFO-101/auto-circuitでライブラリをオープンソース化した。

Mechanistic interpretability work attempts to reverse engineer the learned algorithms present inside neural networks. One focus of this work has been to discover 'circuits' -- subgraphs of the full model that explain behaviour on specific tasks. But how do we measure the performance of such circuits? Prior work has attempted to measure circuit 'faithfulness' -- the degree to which the circuit replicates the performance of the full model. In this work, we survey many considerations for designing experiments that measure circuit faithfulness by ablating portions of the model's computation. Concerningly, we find existing methods are highly sensitive to seemingly insignificant changes in the ablation methodology. We conclude that existing circuit faithfulness scores reflect both the methodological choices of researchers as well as the actual components of the circuit - the task a circuit is required to perform depends on the ablation used to test it. The ultimate goal of mechanistic interpretability work is to understand neural networks, so we emphasize the need for more clarity in the precise claims being made about circuits. We open source a library at https://github.com/UFO-101/auto-circuit that includes highly efficient implementations of a wide range of ablation methodologies and circuit discovery algorithms.
翻訳日:2024-07-12 16:09:12 公開日:2024-07-11
# 大規模言語モデルを用いたリアルタイム異常検出と反応計画

Real-Time Anomaly Detection and Reactive Planning with Large Language Models ( http://arxiv.org/abs/2407.08735v1 )

ライセンス: Link先を確認
Rohan Sinha, Amine Elhafsi, Christopher Agia, Matthew Foutter, Edward Schmerling, Marco Pavone, (参考訳) インターネット規模のデータで訓練された基礎モデル、例えば、大規模言語モデル(LLMs)には、ゼロショットの一般化機能があり、ロボットシステムのアウト・オブ・ディストリビューション障害モードの検出と緩和のための有望な技術となっている。 しかし、この約束に完全に気付くと、2つの課題が生じる。 一 オンラインで適用することができるようなこれらのモデルの相当な費用を軽減し、 二 潜在的な異常についての判断を安全管理の枠組みに組み込むこと。 本稿では, 2段階の推論フレームワークを提案する。 まず, LLM の埋め込み空間における観測を解析し, 生成 LLM の推論能力を利用するスローフォールバック選択段階を誘導する高速バイナリ異常分類器を提案する。 これらの段階はモデル予測制御戦略の分岐点に対応し、異常が検出された直後の遅い推理器の遅延を考慮し、様々なフォールバック計画に沿って継続する連立可能性を維持し、安全性を確保する。 我々の高速な異常分類器は、比較的小さな言語モデルでインスタンス化しても、最先端のGPTモデルで自己回帰推論より優れていることを示す。 これにより、リソースや時間的制約の下で、実行時の監視により、四輪車や自動運転車のような動的ロボットシステムの信頼性が向上する。 シミュレーションと実世界の実験の両方で我々のアプローチを例示するビデオは、このプロジェクトのページで見ることができる。

Foundation models, e.g., large language models (LLMs), trained on internet-scale data possess zero-shot generalization capabilities that make them a promising technology towards detecting and mitigating out-of-distribution failure modes of robotic systems. Fully realizing this promise, however, poses two challenges: (i) mitigating the considerable computational expense of these models such that they may be applied online, and (ii) incorporating their judgement regarding potential anomalies into a safe control framework. In this work, we present a two-stage reasoning framework: First is a fast binary anomaly classifier that analyzes observations in an LLM embedding space, which may then trigger a slower fallback selection stage that utilizes the reasoning capabilities of generative LLMs. These stages correspond to branch points in a model predictive control strategy that maintains the joint feasibility of continuing along various fallback plans to account for the slow reasoner's latency as soon as an anomaly is detected, thus ensuring safety. We show that our fast anomaly classifier outperforms autoregressive reasoning with state-of-the-art GPT models, even when instantiated with relatively small language models. This enables our runtime monitor to improve the trustworthiness of dynamic robotic systems, such as quadrotors or autonomous vehicles, under resource and time constraints. Videos illustrating our approach in both simulation and real-world experiments are available on this project page: https://sites.google.com/view/aesop-llm.
翻訳日:2024-07-12 16:09:12 公開日:2024-07-11
# 逆勾配によるビデオ拡散アライメント

Video Diffusion Alignment via Reward Gradients ( http://arxiv.org/abs/2407.08737v1 )

ライセンス: Link先を確認
Mihir Prabhudesai, Russell Mendonca, Zheyang Qin, Katerina Fragkiadaki, Deepak Pathak, (参考訳) 我々は基礎的なビデオ拡散モデルの構築に向けて大きな進歩を遂げた。 これらのモデルは、大規模な教師なしデータを用いて訓練されているため、特定の下流タスクに適応することが重要になっている。 教師付き微調整によってこれらのモデルを適用するには、ビデオのターゲットデータセットを収集する必要がある。 本研究では,映像拡散モデルに適応するために,強力な視覚識別モデル上での嗜好によって学習される事前学習報酬モデルを利用する。 これらのモデルには、生成したRGBピクセルに対する密度勾配情報が含まれており、ビデオのような複雑な検索空間における効率的な学習に不可欠である。 これらの報酬モデルからビデオ拡散モデルへの回帰勾配は、ビデオ拡散モデルの計算とサンプルの効率的なアライメントを可能にすることを示す。 様々な報奨モデルとビデオ拡散モデルにまたがって結果を提示し、従来の勾配のない手法よりも、報奨クエリや計算の点で、我々のアプローチがはるかに効率的に学習できることを実証した。 私たちのコード、モデルの重み付け、そしてさらなる視覚化はhttps://vader-vid.github.io.comで公開されています。

We have made significant progress towards building foundational video diffusion models. As these models are trained using large-scale unsupervised data, it has become crucial to adapt these models to specific downstream tasks. Adapting these models via supervised fine-tuning requires collecting target datasets of videos, which is challenging and tedious. In this work, we utilize pre-trained reward models that are learned via preferences on top of powerful vision discriminative models to adapt video diffusion models. These models contain dense gradient information with respect to generated RGB pixels, which is critical to efficient learning in complex search spaces, such as videos. We show that backpropagating gradients from these reward models to a video diffusion model can allow for compute and sample efficient alignment of the video diffusion model. We show results across a variety of reward models and video diffusion models, demonstrating that our approach can learn much more efficiently in terms of reward queries and computation than prior gradient-free approaches. Our code, model weights,and more visualization are available at https://vader-vid.github.io.
翻訳日:2024-07-12 16:09:12 公開日:2024-07-11
# MAVIS: 数学的ビジュアルインストラクションチューニング

MAVIS: Mathematical Visual Instruction Tuning ( http://arxiv.org/abs/2407.08739v1 )

ライセンス: Link先を確認
Renrui Zhang, Xinyu Wei, Dongzhi Jiang, Yichi Zhang, Ziyu Guo, Chengzhuo Tong, Jiaming Liu, Aojun Zhou, Bin Wei, Shanghang Zhang, Peng Gao, Hongsheng Li, (参考訳) MLLM(Multi-modal Large Language Models)は、近年、学術と産業に重要な焦点をあてている。 一般的なマルチモーダルシナリオの習熟度にもかかわらず、視覚的文脈における数学的問題解決能力はいまだに不十分である。 MLLMの3つの重要な領域は、数学図の視覚的エンコーディング、図形言語アライメント、数学的推論のスキルである。 これにより、視覚数学における大規模で高品質なデータとトレーニングパイプラインに対する緊急の需要が引き起こされる。 本稿では,MLLMの数学的視覚データセットと特殊なMLLMを含む,MLLMのための最初の数学的VISual命令チューニングパラダイムであるMAVISを提案する。 3つの課題をターゲットに、MAVISはスクラッチから3つのプログレッシブトレーニング段階を含む。 まず、558KのダイアグラムキャプションペアからなるMAVIS-Captionを計算し、比較学習により数学固有のビジョンエンコーダ(CLIP-Math)を微調整する。 第二に、MAVIS-Captionを用いて、CLIP-Mathをプロジェクション層によって大きな言語モデル(LLM)と整列させ、数学的領域における視覚言語アライメントを向上させる。 第3に、900Kの精巧な収集と注釈付き視覚数学問題を含むMAVIS-Instructを導入し、最終的には堅牢な数学的推論スキルのためにMLLMを指導する。 MAVIS-Instructでは、各問題に対して完全なチェーン・オブ・シント(CoT)論理を組み込み、テキストの冗長性を最小化し、視覚要素に向けてモデルを集中させる。 Data and Modelsがhttps://github.com/ZrrSkywalker/MAVISでリリース

Multi-modal Large Language Models (MLLMs) have recently emerged as a significant focus in academia and industry. Despite their proficiency in general multi-modal scenarios, the mathematical problem-solving capabilities in visual contexts remain insufficiently explored. We identify three key areas within MLLMs that need to be improved: visual encoding of math diagrams, diagram-language alignment, and mathematical reasoning skills. This draws forth an urgent demand for large-scale, high-quality data and training pipelines in visual mathematics. In this paper, we propose MAVIS, the first MAthematical VISual instruction tuning paradigm for MLLMs, involving a series of mathematical visual datasets and specialized MLLMs. Targeting the three issues, MAVIS contains three progressive training stages from scratch. First, we curate MAVIS-Caption, consisting of 558K diagram-caption pairs, to fine-tune a math-specific vision encoder (CLIP-Math) through contrastive learning, tailored for improved diagram visual encoding. Second, we utilize MAVIS-Caption to align the CLIP-Math with a large language model (LLM) by a projection layer, enhancing vision-language alignment in mathematical domains. Third, we introduce MAVIS-Instruct, including 900K meticulously collected and annotated visual math problems, which is adopted to finally instruct-tune the MLLM for robust mathematical reasoning skills. In MAVIS-Instruct, we incorporate complete chain-of-thought (CoT) rationales for each problem, and minimize textual redundancy, thereby concentrating the model towards the visual elements. Data and Models are released at https://github.com/ZrrSkywalker/MAVIS
翻訳日:2024-07-12 16:09:12 公開日:2024-07-11
# ライドハイリングシステムにおけるマルチタスク学習エキスパートの時空間混合のゲーテッドアンサンブル

Gated Ensemble of Spatio-temporal Mixture of Experts for Multi-task Learning in Ride-hailing System ( http://arxiv.org/abs/2012.15408v5 )

ライセンス: Link先を確認
M. H. Rahman, S. M. Rifaat, S. N. Sadeek, M. Abrar, D. Wang, (参考訳) ライドシェアリングシステムは、最適なサービス提供、価格戦略、運用効率を確保するために、動的需要と供給の効率的な管理を必要とします。 配車システムにおける需要と需給ギャップを予測するため、タスクワイドおよび都市ワイドで時空間予測モデルを個別に設計することは、拡大する輸送ネットワーク企業にとって負担となる。 そこで本研究では,各都市の時空間課題を同時に予測する,畳み込みリカレントニューラルネットワーク(CRNN),畳み込みニューラルネットワーク(CNN),反復ニューラルネットワーク(RNN)を用いた,時空間ネットワーク(GESME-Net)と時空間ネットワーク(GESME-Net)のゲートアンサンブルを開発することにより,マルチタスク学習アーキテクチャを提案する。 さらに、タスク適応層をマルチタスク学習における共同表現学習のアーキテクチャに統合し、予測に使用する入力特徴の寄与を明らかにする。 提案されたアーキテクチャは、Didi Chuxingのデータでテストされている。 一 北京の需要と需給ギャップを同時に予測すること (二)Chengdu、Xianの需要を同時に予測する。 どちらのシナリオでも、提案したアーキテクチャのモデルは、シングルタスクとマルチタスクのディープラーニングベンチマークとアンサンブルベースの機械学習アルゴリズムよりも優れています。

Ride-hailing system requires efficient management of dynamic demand and supply to ensure optimal service delivery, pricing strategies, and operational efficiency. Designing spatio-temporal forecasting models separately in a task-wise and city-wise manner to forecast demand and supply-demand gap in a ride-hailing system poses a burden for the expanding transportation network companies. Therefore, a multi-task learning architecture is proposed in this study by developing gated ensemble of spatio-temporal mixture of experts network (GESME-Net) with convolutional recurrent neural network (CRNN), convolutional neural network (CNN), and recurrent neural network (RNN) for simultaneously forecasting these spatio-temporal tasks in a city as well as across different cities. Furthermore, a task adaptation layer is integrated with the architecture for learning joint representation in multi-task learning and revealing the contribution of the input features utilized in prediction. The proposed architecture is tested with data from Didi Chuxing for: (i) simultaneously forecasting demand and supply-demand gap in Beijing, and (ii) simultaneously forecasting demand across Chengdu and Xian. In both scenarios, models from our proposed architecture outperformed the single-task and multi-task deep learning benchmarks and ensemble-based machine learning algorithms.
翻訳日:2024-07-12 12:15:14 公開日:2024-07-11
# 自然言語による人間の判断の再現

Using Natural Language Explanations to Rescale Human Judgments ( http://arxiv.org/abs/2305.14770v4 )

ライセンス: Link先を確認
Manya Wadhwa, Jifan Chen, Junyi Jessy Li, Greg Durrett, (参考訳) 大規模言語モデル(LLM)の台頭は、高品質な人間のラベル付きデータ、特に人間のフィードバックや評価のようなプロセスに重要なニーズをもたらした。 一般的な実践は、人間の判断に対してコンセンサスアノテーションを通じてデータをラベル付けすることである。 しかし、アノテータの主観的タスクに対する判断は、例に関する異なる質的な判断を反映し、異なる方法でラベル付けスキームにマッピングされるなど、様々な点で異なる場合がある。 本稿では,これらのニュアンスを自然言語による説明によって捉えることができることを示すとともに,LLMを用いて順序付けアノテーションや説明を再スケールする手法を提案する。 具体的には、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコアリングルーリックに固定された数値スコアを生成する。 これらのスコアは、アノテーションの例に対する基礎的な評価を反映すべきである。 このルーブリックはアノテーションの後に設計したり修正したりすることができ、本来の誤り分類が考案された時点では知られていなかったような区別も含む。 我々は,LLMがほぼ人間に近い性能を達成できる文書地上質問応答タスクにおいて,評価システム出力の文脈において,我々の手法を探求する。 提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。

The rise of large language models (LLMs) has brought a critical need for high-quality human-labeled data, particularly for processes like human feedback and evaluation. A common practice is to label data via consensus annotation over human judgments. However, annotators' judgments for subjective tasks can differ in many ways: they may reflect different qualitative judgments about an example, and they may be mapped to a labeling scheme in different ways. We show that these nuances can be captured by natural language explanations, and propose a method to rescale ordinal annotations and explanations using LLMs. Specifically, we feed annotators' Likert ratings and corresponding explanations into an LLM and prompt it to produce a numeric score anchored in a scoring rubric. These scores should reflect the annotators' underlying assessments of the example. The rubric can be designed or modified after annotation, and include distinctions that may not have been known when the original error taxonomy was devised. We explore our technique in the context of rating system outputs for a document-grounded question answering task, where LLMs achieve near-human performance. Our method rescales the raw judgments without impacting agreement and brings the scores closer to human judgments grounded in the same scoring rubric.
翻訳日:2024-07-12 12:15:14 公開日:2024-07-11
# 弱スーパービジョン残差変圧器を用いた産業異常検出と位置決め

Industrial Anomaly Detection and Localization Using Weakly-Supervised Residual Transformers ( http://arxiv.org/abs/2306.03492v5 )

ライセンス: Link先を確認
Hanxi Li, Jingqi Wu, Lin Yuanbo Wu, Hao Chen, Deyin Liu, Mingwen Wang, Peng Wang, (参考訳) 産業用異常検出(AD)の最近の進歩は、トレーニング中にいくつかの異常サンプルを組み込むことで、精度が著しく向上することを示している。 しかし、このパフォーマンス改善は、広範囲なアノテーションの取り組みという、現実のアプリケーションでは実用的ではない、高いコストで実現されます。 本稿では,広範囲なアノテーションの必要性を最小限に抑えつつ,高いAD精度を実現することを目的とした,"Weakly-supervised RESidual Transformer"(WeakREST)という新しいフレームワークを提案する。 まず,画素単位の異常な局所化タスクをブロック単位の分類問題に再構成する。 ブロック単位にフォーカスを移すことにより、異常検出の精度を損なうことなく、必要なアノテーションの量を劇的に削減することができる。また、我々は、画像ブロックをリアルタイムで分類するために、"Positional Fast Anomaly Residuals" (PosFAR)と呼ばれる残差ベースのトランスフォーマーモデルを設計する。 さらに,境界ボックスや画像タグのみを弱いラベルとして用いて,異常領域をラベル付けすることを提案する。 ベンチマークデータセットMVTec-ADでは、提案したWeakRESTフレームワークが83.0%の驚くべき平均精度(AP)を達成した。 監視されたAD設定では、WeakRESTはパフォーマンスをさらに改善し、以前の78.6%の最高値と比較して、APは87.6%に達した。 特に、バウンディングボックスに基づいた弱いラベルを利用する場合であっても、WakRESTは画素単位の監視に依存する最近の主要な手法を超越し、以前のMVTec-ADの78.6%に対して87.1%のAPを達成した。 この精度の利点は、BTADやKSDD2など、他のよく知られたADデータセットでも一貫して観測されている。

Recent advancements in industrial Anomaly Detection (AD) have shown that incorporating a few anomalous samples during training can significantly boost accuracy. However, this performance improvement comes at a high cost: extensive annotation efforts, which are often impractical in real-world applications. In this work, we propose a novel framework called "Weakly-supervised RESidual Transformer" (WeakREST), which aims to achieve high AD accuracy while minimizing the need for extensive annotations. First, we reformulate the pixel-wise anomaly localization task into a block-wise classification problem. By shifting the focus to block-wise level, we can drastically reduce the amount of required annotations without compromising on the accuracy of anomaly detection Secondly, we design a residual-based transformer model, termed "Positional Fast Anomaly Residuals" (PosFAR), to classify the image blocks in real time. We further propose to label the anomalous regions using only bounding boxes or image tags as weaker labels, leading to a semi-supervised learning setting. On the benchmark dataset MVTec-AD, our proposed WeakREST framework achieves a remarkable Average Precision (AP) of 83.0%, significantly outperforming the previous best result of 75.8% in the unsupervised setting. In the supervised AD setting, WeakREST further improves performance, attaining an AP of 87.6% compared to the previous best of 78.6%. Notably, even when utilizing weaker labels based on bounding boxes, WeakREST surpasses recent leading methods that rely on pixel-wise supervision, achieving an AP of 87.1% against the prior best of 78.6% on MVTec-AD. This precision advantage is also consistently observed on other well-known AD datasets, such as BTAD and KSDD2.
翻訳日:2024-07-12 12:15:14 公開日:2024-07-11
# オープンワールドセマンティックセグメンテーションのためのマルチモーダルプロトタイプ

Multi-Modal Prototypes for Open-World Semantic Segmentation ( http://arxiv.org/abs/2307.02003v3 )

ライセンス: Link先を確認
Yuhuan Yang, Chaofan Ma, Chen Ju, Fei Zhang, Jiangchao Yao, Ya Zhang, Yanfeng Wang, (参考訳) セマンティックセグメンテーションでは、目に見えるカテゴリと推論時に新しいカテゴリの両方に視覚システムを一般化することは、実用上有益でありながら困難である。 このような機能を実現するために、既存のメソッドは主に、視覚的な側面からいくつかのサポートデモを提供するか、テキスト的な側面(例えば、クラス名)から情報的なヒントを特徴付けるかに依存する。 しかしながら、両線とも低レベル・高レベル言語情報の相補的内在性を無視し、視覚的・テキスト的モダリティを全体として考慮して予測を促進する探索は依然として限られている。 このギャップを埋めるために、オープンワールドセマンティックセグメンテーションをより包括的にサポートするマルチモーダルプロトタイプとしてテキストおよび視覚的ヒントを包含し、この約束を実現するための新しいプロトタイプベースのセグメンテーションフレームワークを構築することを提案する。 具体的には、バイモーダルなヒントの直接的な組み合わせとは異なり、ハイレベルな言語情報をマルチアスペクトのプロトタイプとして分解し、よりセマンティックなプロトタイプとして低レベルな視覚情報を集約する。 任意の数のプロトタイプ入力を許容する弾性マスク予測モジュールに基づいて、ゼロショット、少数ショット、一般化されたタスクを1つのアーキテクチャで解くことができる。 PASCAL-$5^i$ と COCO-$20^i$ の2つのデータセットによる大規模な実験により,提案手法の従来手法と比較して一貫した優位性を示した。

In semantic segmentation, generalizing a visual system to both seen categories and novel categories at inference time has always been practically valuable yet challenging. To enable such functionality, existing methods mainly rely on either providing several support demonstrations from the visual aspect or characterizing the informative clues from the textual aspect (e.g., the class names). Nevertheless, both two lines neglect the complementary intrinsic of low-level visual and high-level language information, while the explorations that consider visual and textual modalities as a whole to promote predictions are still limited. To close this gap, we propose to encompass textual and visual clues as multi-modal prototypes to allow more comprehensive support for open-world semantic segmentation, and build a novel prototype-based segmentation framework to realize this promise. To be specific, unlike the straightforward combination of bi-modal clues, we decompose the high-level language information as multi-aspect prototypes and aggregate the low-level visual information as more semantic prototypes, on basis of which, a fine-grained complementary fusion makes the multi-modal prototypes more powerful and accurate to promote the prediction. Based on an elastic mask prediction module that permits any number and form of prototype inputs, we are able to solve the zero-shot, few-shot and generalized counterpart tasks in one architecture. Extensive experiments on both PASCAL-$5^i$ and COCO-$20^i$ datasets show the consistent superiority of the proposed method compared with the previous state-of-the-art approaches, and a range of ablation studies thoroughly dissects each component in our framework both quantitatively and qualitatively that verify their effectiveness.
翻訳日:2024-07-12 12:15:14 公開日:2024-07-11
# 監督から生成へ:大規模言語モデルを用いたタブラルディープラーニングのための新しいパラダイム

From Supervised to Generative: A Novel Paradigm for Tabular Deep Learning with Large Language Models ( http://arxiv.org/abs/2310.07338v4 )

ライセンス: Link先を確認
Xumeng Wen, Han Zhang, Shun Zheng, Wei Xu, Jiang Bian, (参考訳) タブラルデータは、医療、金融、小売、サステナビリティなど、さまざまな重要な産業における予測モデリングの基礎となっている。 専門モデルにおける進歩にもかかわらず、知識を伝達し、限られたデータから一般化し、人間の指示に従うことができる普遍モデルへの需要が高まっている。 これらは、現在の表形式のディープラーニングアプローチが完全には取り組まなかった課題である。 本稿では,大規模言語モデル(LLM)の高度な機能を統合する新しいフレームワークであるジェネレーティブタブラルラーニング(GTL)を紹介する。 GTLは、様々な表形式のデータに基づくLLMの事前学習に重きを置いて、ドメイン固有の知識、数値シーケンス、および正確な予測に不可欠な統計的依存関係の理解を高めている。 我々の実証研究は、GTLの収束とスケーリングの振る舞いを厳格に分析し、さまざまなデータテンプレートの影響を評価する、384の公開データセットにまたがる。 GTL強化LLaMA-2モデルは、多くの分類および回帰タスクにまたがる優れたゼロショットおよびインコンテキスト学習能力を示す。 特に、GPT-4のような最先端のモデルに対抗して、微調整や従来の手法よりも優れたパフォーマンスを実現している。 GTLを通じて,LLMの高度な能力を表型データ理解と応用に深く統合するだけでなく,表型データを理解する能力を高めるために,新たなトレーニングリソースとテストベッドを提供する。 再現可能な研究を容易にするため、私たちはhttps://github.com/microsoft/Industrial-Foundation-Modelsでコード、データ、モデルチェックポイントをリリースします。

Tabular data is foundational to predictive modeling in various crucial industries, including healthcare, finance, retail, sustainability, etc. Despite the progress made in specialized models, there is an increasing demand for universal models that can transfer knowledge, generalize from limited data, and follow human instructions. These are challenges that current tabular deep learning approaches have not fully tackled. Here we introduce Generative Tabular Learning (GTL), a novel framework that integrates the advanced functionalities of large language models (LLMs)-such as prompt-based zero-shot generalization and in-context learning-into tabular deep learning. GTL capitalizes on the pre-training of LLMs on diverse tabular data, enhancing their understanding of domain-specific knowledge, numerical sequences, and statistical dependencies critical for accurate predictions. Our empirical study spans 384 public datasets, rigorously analyzing GTL's convergence and scaling behaviors and assessing the impact of varied data templates. The GTL-enhanced LLaMA-2 model demonstrates superior zero-shot and in-context learning capabilities across numerous classification and regression tasks. Notably, it achieves this without fine-tuning, outperforming traditional methods and rivaling state-of-the-art models like GPT-4 in certain cases. Through GTL, we not only foster a deeper integration of LLMs' sophisticated abilities into tabular data comprehension and application but also offer a new training resource and a test bed for LLMs to enhance their ability to comprehend tabular data. To facilitate reproducible research, we release our code, data, and model checkpoints at https://github.com/microsoft/Industrial-Foundation-Models.
翻訳日:2024-07-12 12:15:14 公開日:2024-07-11
# Tri$^{2}$-plane:Feature Pyramidでヘッドアバターを思い浮かべる

Tri$^{2}$-plane: Thinking Head Avatar via Feature Pyramid ( http://arxiv.org/abs/2401.09386v3 )

ライセンス: Link先を確認
Luchuan Song, Pinxin Liu, Lele Chen, Guojun Yin, Chenliang Xu, (参考訳) 近年は、神経ボリュームレンダリングによる顔アバターの再構築でかなりの成果を挙げている。 顕著な進歩にもかかわらず、単眼ビデオからの複雑な頭部運動とダイナミックな頭部運動の再構築は、細かな細部を捉え、復元することに苦しむ。 本研究では,モノクラーフォトリアリスティックな頭部アバター再構成のための新しいアプローチTri$^2$-planeを提案する。 動的顔モデリングのための1つの三面体変形場に依存する既存の研究とは違い、提案されたTri$^2$-planeは、特徴ピラミッドと3つの上下方向接続三面体の原理を利用して細部の改善を行う。 顔の詳細を複数のスケールで分析してレンダリングし、顔全体から特定の地域へ移行し、さらに洗練されたサブリージョンへと移行する。 さらに,カメラをベースとした幾何対応のスライドウインドウをトレーニングの強化として組み込むことで,標準空間を超えた堅牢性を向上し,特にクロスアイデンティティ生成能力の向上を図っている。 実験結果から、Tri$^2$-planeは既存の方法論を超越するだけでなく、定量的および定性的な評価よりも優れた性能が得られることが示唆された。 プロジェクトのWebサイトは: \url{https://songluchuan.github.io/Tri2Plane.github.io/}。

Recent years have witnessed considerable achievements in facial avatar reconstruction with neural volume rendering. Despite notable advancements, the reconstruction of complex and dynamic head movements from monocular videos still suffers from capturing and restoring fine-grained details. In this work, we propose a novel approach, named Tri$^2$-plane, for monocular photo-realistic volumetric head avatar reconstructions. Distinct from the existing works that rely on a single tri-plane deformation field for dynamic facial modeling, the proposed Tri$^2$-plane leverages the principle of feature pyramids and three top-to-down lateral connections tri-planes for details improvement. It samples and renders facial details at multiple scales, transitioning from the entire face to specific local regions and then to even more refined sub-regions. Moreover, we incorporate a camera-based geometry-aware sliding window method as an augmentation in training, which improves the robustness beyond the canonical space, with a particular improvement in cross-identity generation capabilities. Experimental outcomes indicate that the Tri$^2$-plane not only surpasses existing methodologies but also achieves superior performance across quantitative and qualitative assessments. The project website is: \url{https://songluchuan.github.io/Tri2Plane.github.io/}.
翻訳日:2024-07-12 12:15:14 公開日:2024-07-11
# ファンデーションモデルのための中国伝統評価スイートの改良

An Improved Traditional Chinese Evaluation Suite for Foundation Model ( http://arxiv.org/abs/2403.01858v3 )

ライセンス: Link先を確認
Zhi-Rui Tam, Ya-Ting Pai, Yen-Wei Lee, Jun-Da Chen, Wei-Min Chu, Sega Cheng, Hong-Han Shuai, (参考訳) 従来の中国語理解のための新しいベンチマークTMMLU+を提案する。 TMMLU+は、小学生から専門職まで66名の被験者からなる多票質問回答データセットである。 6倍の大きさで、前任の台湾大量マルチタスク言語理解(TMMLU)よりもバランスの取れた主題分布を誇っている。 また、提案したTMMLU+上で、1.8Bから72Bまでのパラメータのクローズドソースモデルと26の中国語大言語モデル(LLM)をベンチマークした。 従来の中国モデルは、(1.)簡素な中国モデルに遅れを取っており、従来の中国モデルに合わせたLCMのより集中的な進歩の必要性が浮かび上がっている。 (2)。 現在のLLMは、平均的なスコアにおける人間のパフォーマンスに欠けており、社会科学や人文科学の主題を深く掘り下げる将来の研究の必要性が示唆されている。 3)であった。 検討したトークン化圧縮指標のうち, 出生率スコアのみがベンチマーク結果と強い相関を示すことが確認できた。 我々は,TMMLU+が今後,機械と人間の言語能力のギャップを狭くし,研究者が従来の中国語LLMの開発を支援することを予想する。 私たちのデータセットは、ベンチマークソースコードとともに、face.co/datasets/ikala/tmmluplusを抱きしめることでアクセスできます。

We present TMMLU+, a new benchmark designed for Traditional Chinese language understanding. TMMLU+ is a multi-choice question-answering dataset with 66 subjects from elementary to professional level. It is six times larger and boasts a more balanced subject distribution than its predecessor, Taiwan Massive Multitask Language Understanding (TMMLU). We also benchmark closed-source models and 26 open-weight Chinese large language models (LLMs) of parameters ranging from 1.8B to 72B on the proposed TMMLU+. Our findings reveal that (1.) Traditional Chinese models still trail behind their Simplified Chinese counterparts, highlighting a need for more focused advancements in LLMs catering to Traditional Chinese. (2.) Current LLMs still fall short of human performance in average scores, indicating a potential need for future research to delve deeper into social science and humanities subjects. (3.) Among all the tokenization compression metrics examined, we identify that only the fertility score uniquely demonstrates strong correlations with our benchmark results. We foresee that TMMLU+ will pinpoint areas for future model improvement, thereby narrowing the gap between machine and human linguistic capabilities and supporting researchers in developing Traditional Chinese LLMs. Our dataset, along with the benchmark source code, is accessible at huggingface.co/datasets/ikala/tmmluplus.
翻訳日:2024-07-12 12:15:14 公開日:2024-07-11
# DiffuseHigh: 構造誘導による無訓練プログレッシブ高分解能画像合成

DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance ( http://arxiv.org/abs/2406.18459v4 )

ライセンス: Link先を確認
Younghyun Kim, Geunmin Hwang, Junyu Zhang, Eunbyung Park, (参考訳) 近年、大規模な生成モデルが急増し、コンピュータビジョンの広大な分野が発達した。 特に、高忠実度画像生成の可能性から、テキスト・画像拡散モデルが様々な領域で広く採用されている。 それにもかかわらず、既存の大規模拡散モデルは1K解像度の画像を生成するために限られており、これは現代の商用応用の要求を満たすには程遠い。 高解像度画像を直接サンプリングすると、オブジェクトの繰り返しや歪んだ形状といった成果物によってマージされることが多い。 上記の問題に対処するには、通常、高解像度データセットのトレーニングや微調整が必要になります。 しかし、大規模な高解像度コンテンツやかなりの計算資源の収集が困難であることから、この取り組みは大きな課題となる。 いくつかの先行作品では代替案が提案されているが、しばしば説得力のある結果が得られない。 そこで本研究では,高分解能画像を生成するために,生成した低分解能画像を完全に活用する新しいプログレッシブ・アプローチを提案する。 本手法は,計算コストを大幅に削減する追加トレーニングや微調整の必要性を回避している。 その結果,本手法の有効性と有効性について検討した。 プロジェクトページ: https://yhyun225.github.io/DiffuseHigh/

Recent surge in large-scale generative models has spurred the development of vast fields in computer vision. In particular, text-to-image diffusion models have garnered widespread adoption across diverse domain due to their potential for high-fidelity image generation. Nonetheless, existing large-scale diffusion models are confined to generate images of up to 1K resolution, which is far from meeting the demands of contemporary commercial applications. Directly sampling higher-resolution images often yields results marred by artifacts such as object repetition and distorted shapes. Addressing the aforementioned issues typically necessitates training or fine-tuning models on higher resolution datasets. However, this undertaking poses a formidable challenge due to the difficulty in collecting large-scale high-resolution contents and substantial computational resources. While several preceding works have proposed alternatives, they often fail to produce convincing results. In this work, we probe the generative ability of diffusion models at higher resolution beyond its original capability and propose a novel progressive approach that fully utilizes generated low-resolution image to guide the generation of higher resolution image. Our method obviates the need for additional training or fine-tuning which significantly lowers the burden of computational costs. Extensive experiments and results validate the efficiency and efficacy of our method. Project page: https://yhyun225.github.io/DiffuseHigh/
翻訳日:2024-07-12 12:15:14 公開日:2024-07-11
# FunAudioLLM:人間とLLMの自然な相互作用のための音声理解と生成基盤モデル

FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs ( http://arxiv.org/abs/2407.04051v3 )

ライセンス: Link先を確認
Keyu An, Qian Chen, Chong Deng, Zhihao Du, Changfeng Gao, Zhifu Gao, Yue Gu, Ting He, Hangrui Hu, Kai Hu, Shengpeng Ji, Yabin Li, Zerui Li, Heng Lu, Haoneng Luo, Xiang Lv, Bin Ma, Ziyang Ma, Chongjia Ni, Changhe Song, Jiaqi Shi, Xian Shi, Hao Wang, Wen Wang, Yuxuan Wang, Zhangyu Xiao, Zhijie Yan, Yexin Yang, Bin Zhang, Qinglin Zhang, Shiliang Zhang, Nan Zhao, Siqi Zheng, (参考訳) 本報告では,人間と大規模言語モデル(LLM)との自然な音声対話を強化するモデルファミリーであるFunAudioLLMを紹介する。 中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。 SenseVoice-Smallは5つの言語で例外的に低レイテンシASRを提供し、SenseVoice-Largeは50以上の言語で高精度ASRをサポートし、CosyVoiceは多言語音声生成、ゼロショットインコンテキスト学習、クロスリンガル音声クローニング、命令フォロー機能に優れている。 SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。 これらのモデルをLLMと統合することにより、FunAudioLLMは音声音声翻訳、感情音声チャット、対話型ポッドキャスト、表現型オーディオブックナレーションといった応用を可能にし、音声インタラクション技術の境界を押し進める。 デモはhttps://fun-audio-llm.github.ioで、コードはhttps://github.com/FunAudioLLMでアクセスできる。

This report introduces FunAudioLLM, a model family designed to enhance natural voice interactions between humans and large language models (LLMs). At its core are two innovative models: SenseVoice, which handles multilingual speech recognition, emotion recognition, and audio event detection; and CosyVoice, which facilitates natural speech generation with control over multiple languages, timbre, speaking style, and speaker identity. SenseVoice-Small delivers exceptionally low-latency ASR for 5 languages, and SenseVoice-Large supports high-precision ASR for over 50 languages, while CosyVoice excels in multi-lingual voice generation, zero-shot in-context learning, cross-lingual voice cloning, and instruction-following capabilities. The models related to SenseVoice and CosyVoice have been open-sourced on Modelscope and Huggingface, along with the corresponding training, inference, and fine-tuning codes released on GitHub. By integrating these models with LLMs, FunAudioLLM enables applications such as speech-to-speech translation, emotional voice chat, interactive podcasts, and expressive audiobook narration, thereby pushing the boundaries of voice interaction technology. Demos are available at https://fun-audio-llm.github.io, and the code can be accessed at https://github.com/FunAudioLLM.
翻訳日:2024-07-12 12:15:14 公開日:2024-07-11
# Dual-Level Adaptive Lossy Compressionを用いたDeep Learning Recommendation Modelトレーニングにおけるコミュニケーションの高速化

Accelerating Communication in Deep Learning Recommendation Model Training with Dual-Level Adaptive Lossy Compression ( http://arxiv.org/abs/2407.04272v3 )

ライセンス: Link先を確認
Hao Feng, Boyuan Zhang, Fanjiang Ye, Min Si, Ching-Hsiang Chu, Jiannan Tian, Chunxing Yin, Summer Deng, Yuchen Hao, Pavan Balaji, Tong Geng, Dingwen Tao, (参考訳) DLRMは最先端のレコメンデーションシステムモデルであり、様々な業界アプリケーションで広く採用されている。 しかし、DLRMモデルの大きなサイズは、効率的なトレーニングのために複数のデバイス/GPUを使用する必要がある。 このプロセスにおける重要なボトルネックは、すべてのデバイスから埋め込みデータを集めるのに必要な全通信に時間を要することだ。 これを軽減するため,通信データサイズを削減し,DLRMトレーニングを高速化するために,エラーバウンドの損失圧縮を利用する手法を提案する。 本研究では,埋込データの特徴を詳細に解析し,高い圧縮率を達成するために,新しい誤り結合型損失圧縮アルゴリズムを開発した。 さらに、テーブルワイドとイテレーションワイドの両方にまたがる、エラーバウンド調整のための二重レベル適応戦略を導入し、圧縮の利点と精度への影響をバランスさせる。 さらに、GPU上のPyTorchテンソルの圧縮機を最適化し、圧縮オーバーヘッドを最小限にする。 評価の結果,本手法は最小限の精度で1.38$\times$トレーニングスピードアップを達成した。

DLRM is a state-of-the-art recommendation system model that has gained widespread adoption across various industry applications. The large size of DLRM models, however, necessitates the use of multiple devices/GPUs for efficient training. A significant bottleneck in this process is the time-consuming all-to-all communication required to collect embedding data from all devices. To mitigate this, we introduce a method that employs error-bounded lossy compression to reduce the communication data size and accelerate DLRM training. We develop a novel error-bounded lossy compression algorithm, informed by an in-depth analysis of embedding data features, to achieve high compression ratios. Moreover, we introduce a dual-level adaptive strategy for error-bound adjustment, spanning both table-wise and iteration-wise aspects, to balance the compression benefits with the potential impacts on accuracy. We further optimize our compressor for PyTorch tensors on GPUs, minimizing compression overhead. Evaluation shows that our method achieves a 1.38$\times$ training speedup with a minimal accuracy impact.
翻訳日:2024-07-12 12:15:14 公開日:2024-07-11
# Helios:常時オンのスマートアイウェアのための極めて低消費電力なイベントベースのジェスチャー認識

Helios: An extremely low power event-based gesture recognition for always-on smart eyewear ( http://arxiv.org/abs/2407.05206v2 )

ライセンス: Link先を確認
Prarthana Bhattacharyya, Joshua Mitton, Ryan Page, Owen Morgan, Ben Menzies, Gabriel Homewood, Kemi Jacobs, Paolo Baesso, Dave Trickett, Chris Mair, Taru Muhonen, Rory Clark, Louis Berridge, Richard Vigars, Iain Wallace, (参考訳) 本稿では,スマートアイウェアの日中使用用に設計された,非常に低消費電力でリアルタイムなイベントベースの手ジェスチャー認識システムであるHeliosを紹介する。 拡張現実(AR)が進化するにつれて、Meta Ray-Bansのような現在のスマートグラスは、機能を犠牲にして視覚とウェアラブルの快適さを優先する。 これらのデバイスに既存のヒューマンマシンインタフェース(HMI)(Capacitive Touch and Voice Control)は、エルゴノミクス、プライバシ、電力消費の制限を提示する。 Heliosは、より直感的で快適なユーザエクスペリエンスのために、自然なハンドインタラクションを活用することで、これらの課題に対処する。 本システムは,超低消費電力でコンパクトな3mmx4mm/20mWイベントカメラを用いて,常時オン型スマートアイウェアの自然な手動ジェスチャー認識を行う。 カメラの出力は、NXP Nano UltraLite計算プラットフォーム上で動作する畳み込みニューラルネットワーク(CNN)によって処理され、350mW未満を消費する。 Heliosは、スワイプやピンチなどの微妙なマイクロジェスチャーを含む7種類のジェスチャーを91%の精度で認識できる。 また、60ミリ秒という極めて低いレイテンシで、20ユーザにわたるリアルタイムパフォーマンスを実演しています。 ユーザテストの結果は、先日のAWE-USA-2024でのデモで得られた肯定的なフィードバックと一致しています。

This paper introduces Helios, the first extremely low-power, real-time, event-based hand gesture recognition system designed for all-day on smart eyewear. As augmented reality (AR) evolves, current smart glasses like the Meta Ray-Bans prioritize visual and wearable comfort at the expense of functionality. Existing human-machine interfaces (HMIs) in these devices, such as capacitive touch and voice controls, present limitations in ergonomics, privacy and power consumption. Helios addresses these challenges by leveraging natural hand interactions for a more intuitive and comfortable user experience. Our system utilizes a extremely low-power and compact 3mmx4mm/20mW event camera to perform natural hand-based gesture recognition for always-on smart eyewear. The camera's output is processed by a convolutional neural network (CNN) running on a NXP Nano UltraLite compute platform, consuming less than 350mW. Helios can recognize seven classes of gestures, including subtle microgestures like swipes and pinches, with 91% accuracy. We also demonstrate real-time performance across 20 users at a remarkably low latency of 60ms. Our user testing results align with the positive feedback we received during our recent successful demo at AWE-USA-2024.
翻訳日:2024-07-12 12:15:14 公開日:2024-07-11
# 月面アルベド異常検出のための機械学習アプローチ

A Machine Learning Approach to Detecting Albedo Anomalies on the Lunar Surface ( http://arxiv.org/abs/2407.05832v2 )

ライセンス: Link先を確認
Sofia Strukova, Sergei Gleyzer, Patrick Peplowski, Jason P. Terry, (参考訳) 本研究では、月面のアルベド異常を探索・予測するために機械学習(ML)技術を用いたデータ駆動アプローチを提案する。 この研究は、レーザーとガンマ線の測定から得られた高空間分解能アルベドマップや元素マップ(LPFe, LPK, LPTh, LPTi)を含む多様な惑星のデータセットを活用している。 主な目的は、化学元素とアルベドの関係を識別し、惑星表面の理解を広げ、不完全なデータセットを持つ領域の予測能力を提供することである。 アルベドと要素写像の間の分解のギャップを埋めるために、革新的な適応ガウスのぼかしを含むガウスのぼかし技術を用いる。 本手法は,元素組成に基づく全アルベドの予測に最適化された極高次ブースティング回帰モデルの展開において,本手法を導出する。 さらに,予測誤差を可視化し,その空間的および化学的特性を記述するための対話型解析ツールを提案する。 この発見は、月の表面のより包括的な理解の道を開くだけでなく、他の天体についても同様の研究の枠組みを提供する。

This study introduces a data-driven approach using machine learning (ML) techniques to explore and predict albedo anomalies on the Moon's surface. The research leverages diverse planetary datasets, including high-spatial-resolution albedo maps and element maps (LPFe, LPK, LPTh, LPTi) derived from laser and gamma-ray measurements. The primary objective is to identify relationships between chemical elements and albedo, thereby expanding our understanding of planetary surfaces and offering predictive capabilities for areas with incomplete datasets. To bridge the gap in resolution between the albedo and element maps, we employ Gaussian blurring techniques, including an innovative adaptive Gaussian blur. Our methodology culminates in the deployment of an Extreme Gradient Boosting Regression Model, optimized to predict full albedo based on elemental composition. Furthermore, we present an interactive analytical tool to visualize prediction errors, delineating their spatial and chemical characteristics. The findings not only pave the way for a more comprehensive understanding of the Moon's surface but also provide a framework for similar studies on other celestial bodies.
翻訳日:2024-07-12 12:07:17 公開日:2024-07-11
# エネルギーモデルにおけるロバスト分類器への光の入射

Shedding More Light on Robust Classifiers under the lens of Energy-based Models ( http://arxiv.org/abs/2407.06315v2 )

ライセンス: Link先を確認
Mujtaba Hussain Mirza, Maria Rosaria Briglia, Senad Beadini, Iacopo Masi, (参考訳) 頑健な識別型分類器をエネルギーベースモデル (EBM) として再解釈することにより, 対人訓練 (AT) の力学に新たな視点を与える。 ATにおけるエネルギー環境の分析により、標的外攻撃は、モデルの観点からの本来のデータよりも、より分散した(低エネルギー)敵画像を生成することが明らかとなった。 逆に、ターゲット攻撃の反対を観察する。 本研究は,ATエネルギー力学の解釈が3相に支配され,第3相に強大なオーバーフィッティングが発生すること,第2相にTRadeoff-inspired Adversarial Defenseの損失をSurrogate-loss minimization (TRADES) に書き換えること,TRADESが自然エネルギーと対向エネルギーを整合させることによって過度フィッティングを暗黙的に緩和すること,第3相に強大なオーバーフィッティングが生じること,及び第3相に強大なオーバーフィッティングが生じることを実証的に示す。 CIFAR-10 や SVHN などの複数のベンチマークに適合し,CIFAR-100 や Tiny-ImageNet を超越した精度の高い試料重み付け手法である Weighted Energy Adversarial Training (WEAT) を提案する。 さらに、ロバストな分類器は、その生成能力の強度と品質に変化があることを示し、生成モデリングの訓練を受けずにロバストな分類器を用いて、優れたインセプションスコア(IS)とFIDに到達した。 結果を再現するコードは http://github.com/OmnAI-Lab/Robust-Classifiers-under-the-lens-of-EBM/ で公開されている。

By reinterpreting a robust discriminative classifier as Energy-based Model (EBM), we offer a new take on the dynamics of adversarial training (AT). Our analysis of the energy landscape during AT reveals that untargeted attacks generate adversarial images much more in-distribution (lower energy) than the original data from the point of view of the model. Conversely, we observe the opposite for targeted attacks. On the ground of our thorough analysis, we present new theoretical and practical results that show how interpreting AT energy dynamics unlocks a better understanding: (1) AT dynamic is governed by three phases and robust overfitting occurs in the third phase with a drastic divergence between natural and adversarial energies (2) by rewriting the loss of TRadeoff-inspired Adversarial DEfense via Surrogate-loss minimization (TRADES) in terms of energies, we show that TRADES implicitly alleviates overfitting by means of aligning the natural energy with the adversarial one (3) we empirically show that all recent state-of-the-art robust classifiers are smoothing the energy landscape and we reconcile a variety of studies about understanding AT and weighting the loss function under the umbrella of EBMs. Motivated by rigorous evidence, we propose Weighted Energy Adversarial Training (WEAT), a novel sample weighting scheme that yields robust accuracy matching the state-of-the-art on multiple benchmarks such as CIFAR-10 and SVHN and going beyond in CIFAR-100 and Tiny-ImageNet. We further show that robust classifiers vary in the intensity and quality of their generative capabilities, and offer a simple method to push this capability, reaching a remarkable Inception Score (IS) and FID using a robust classifier without training for generative modeling. The code to reproduce our results is available at http://github.com/OmnAI-Lab/Robust-Classifiers-under-the-lens-of-EBM/ .
翻訳日:2024-07-12 12:07:17 公開日:2024-07-11
# 自己監督型病理基盤モデルの臨床ベンチマーク

A Clinical Benchmark of Public Self-Supervised Pathology Foundation Models ( http://arxiv.org/abs/2407.06508v3 )

ライセンス: Link先を確認
Gabriele Campanella, Shengjia Chen, Ruchika Verma, Jennifer Zeng, Aryeh Stock, Matt Croken, Brandon Veremis, Abdulkadir Elmas, Kuan-lin Huang, Ricky Kwan, Jane Houldsworth, Adam J. Schoenfeld, Chad Vanderbilt, (参考訳) 病理基礎モデルのトレーニングにおける自己教師あり学習(SSL)の利用は,ここ数年で著しく増加している。 特に、大量の臨床データに基づいて訓練されたいくつかのモデルが、ここ数ヶ月で一般公開されている。 これにより、計算病理学の科学的研究が大幅に強化され、研究と臨床展開のギャップを埋める助けとなる。 異なるサイズの公立基礎モデルの可用性が向上し、異なるデータセット上で異なるアルゴリズムを用いて訓練されるようになると、複数の臓器や疾患にまたがる様々な臨床関連タスクにおいて、それらのモデルの性能を比較するためのベンチマークを確立することが重要となる。 本研究は、がん診断を含む臨床関連エンドポイントに関連する臨床スライドと、2つの医療センターから標準的な病院手術中に発生する各種バイオマーカーからなる病理データセットの収集について述べる。 これらのデータセットを利用して、公共病理基盤モデルの性能を体系的に評価し、新しい基礎モデルをトレーニングし、適切な事前学習モデルを選択するためのベストプラクティスに関する洞察を提供する。

The use of self-supervised learning (SSL) to train pathology foundation models has increased substantially in the past few years. Notably, several models trained on large quantities of clinical data have been made publicly available in recent months. This will significantly enhance scientific research in computational pathology and help bridge the gap between research and clinical deployment. With the increase in availability of public foundation models of different sizes, trained using different algorithms on different datasets, it becomes important to establish a benchmark to compare the performance of such models on a variety of clinically relevant tasks spanning multiple organs and diseases. In this work, we present a collection of pathology datasets comprising clinical slides associated with clinically relevant endpoints including cancer diagnoses and a variety of biomarkers generated during standard hospital operation from two medical centers. We leverage these datasets to systematically assess the performance of public pathology foundation models and provide insights into best practices for training new foundation models and selecting appropriate pretrained models.
翻訳日:2024-07-12 12:07:17 公開日:2024-07-11
# 視覚言語モデルは盲目です

Vision language models are blind ( http://arxiv.org/abs/2407.06581v2 )

ライセンス: Link先を確認
Pooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen, (参考訳) 視覚機能を備えた大規模言語モデル(VLM)、例えば、GPT-4o、Gemini 1.5 Proは、数え切れないほどの画像テキストアプリケーションを動かし、多くの視覚基盤ベンチマークで高いスコアを得ている。 私たちはBlindTestを提案します。BlindTestは、人間を識別するなど、まったく簡単な7つの視覚タスクのスイートです。 (a) 2つの円が重複するか否か (b)二つの線が交差するか否か (c)どの文字が一言で丸められているか、 (d)オリンピックのようなロゴの円の数を数える。 驚いたことに、最先端の4つのVLMは平均してベンチマークで56.20%しか正確ではなく、 \newsonnetが最も正確である(73.77%)。 BlindTestでは、VLMは正確な空間情報とカウント(0から10)を必要とするタスクに苦労する。 コードは、https://vlmsareblind.github.io/で入手できる。

Large language models with vision capabilities (VLMs), e.g., GPT-4o and Gemini 1.5 Pro are powering countless image-text applications and scoring high on many vision-understanding benchmarks. We propose BlindTest, a suite of 7 visual tasks absurdly easy to humans such as identifying (a) whether two circles overlap; (b) whether two lines intersect; (c) which letter is being circled in a word; and (d) counting the number of circles in a Olympic-like logo. Surprisingly, four state-of-the-art VLMs are, on average, only 56.20% accurate on our benchmark, with \newsonnet being the best (73.77% accuracy). On BlindTest, VLMs struggle with tasks that requires precise spatial information and counting (from 0 to 10), sometimes providing an impression of a person with myopia seeing fine details as blurry and making educated guesses. Code is available at: https://vlmsareblind.github.io/
翻訳日:2024-07-12 12:07:17 公開日:2024-07-11
# テキスト攻撃パターンからの脆弱性特徴抽出法の比較

A Comparison of Vulnerability Feature Extraction Methods from Textual Attack Patterns ( http://arxiv.org/abs/2407.06753v2 )

ライセンス: Link先を確認
Refat Othman, Bruno Rossi, Russo Barbara, (参考訳) 今日では、サイバーセキュリティベンダーからの脅威報告には、非構造化テキストに攻撃の詳細な説明が組み込まれている。 これらの報告に関連する脆弱性を知ることは、サイバーセキュリティ研究者や実践者が、進化する攻撃を理解し、調整し、緩和計画を作成するのに役立つ。 本稿では,サイバーセキュリティ研究者や実践者が脅威情報の監視と共有を強化するための攻撃抽出方法を選択するのを支援することを目的とする。 本研究では,5つの特徴抽出法(TF-IDF,LSI,BERT,MiniLM,RoBERTa)について検討し,他の4つの手法よりも精度が75\%,F1スコアが64\%であることを示す。 この発見は、サイバーセキュリティコミュニティに貴重な洞察を与え、我々の研究は、サイバーセキュリティ研究者が今後の抽出方法の有効性を評価し、比較するのに役立つ。

Nowadays, threat reports from cybersecurity vendors incorporate detailed descriptions of attacks within unstructured text. Knowing vulnerabilities that are related to these reports helps cybersecurity researchers and practitioners understand and adjust to evolving attacks and develop mitigation plans. This paper aims to aid cybersecurity researchers and practitioners in choosing attack extraction methods to enhance the monitoring and sharing of threat intelligence. In this work, we examine five feature extraction methods (TF-IDF, LSI, BERT, MiniLM, RoBERTa) and find that Term Frequency-Inverse Document Frequency (TF-IDF) outperforms the other four methods with a precision of 75\% and an F1 score of 64\%. The findings offer valuable insights to the cybersecurity community, and our research can aid cybersecurity researchers in evaluating and comparing the effectiveness of upcoming extraction methods.
翻訳日:2024-07-12 12:07:17 公開日:2024-07-11
# フェデレーションラーニングライフサイクルにおける脅威と防御--包括的調査と課題

Threats and Defenses in Federated Learning Life Cycle: A Comprehensive Survey and Challenges ( http://arxiv.org/abs/2407.06754v2 )

ライセンス: Link先を確認
Yanli Li, Zhongliang Guo, Nan Yang, Huaming Chen, Dong Yuan, Weiping Ding, (参考訳) Federated Learning (FL)は、プライバシ保護のための協調機械学習(ML)のための革新的なソリューションを提供する。 その有望な可能性にもかかわらず、FLは分散した性質のために様々な攻撃に対して脆弱であり、FLサービスのライフサイクル全体に影響を及ぼす。 これらの脅威はモデルの実用性を傷つけたり、直接的または間接的に参加者のプライバシーを侵害する可能性がある。 これに対し、特定の設定やシナリオでの有効性を示す多くの防衛フレームワークが提案されている。 本稿では,FLサービスライフサイクル全体を通じて,最も代表的で最先端の脅威と防衛の枠組みを概観する。 まず、可能性や直接的な影響のあるものを含む、ユーティリティとプライバシを害するFL脅威を特定します。 そして、防衛枠組みを掘り下げ、脅威と防衛の関係を分析し、異なる防衛戦略のトレードオフを比較する。 最後に、現在の研究ボトルネックを概説し、今後の研究方向性についての洞察を提供して、この調査を結論づける。 この調査は、信頼できるFL研究に光を当て、FLコミュニティに貢献することを願っています。

Federated Learning (FL) offers innovative solutions for privacy-preserving collaborative machine learning (ML). Despite its promising potential, FL is vulnerable to various attacks due to its distributed nature, affecting the entire life cycle of FL services. These threats can harm the model's utility or compromise participants' privacy, either directly or indirectly. In response, numerous defense frameworks have been proposed, demonstrating effectiveness in specific settings and scenarios. To provide a clear understanding of the current research landscape, this paper reviews the most representative and state-of-the-art threats and defense frameworks throughout the FL service life cycle. We start by identifying FL threats that harm utility and privacy, including those with potential or direct impacts. Then, we dive into the defense frameworks, analyze the relationship between threats and defenses, and compare the trade-offs among different defense strategies. Finally, we summarize current research bottlenecks and offer insights into future research directions to conclude this survey. We hope this survey sheds light on trustworthy FL research and contributes to the FL community.
翻訳日:2024-07-12 12:07:17 公開日:2024-07-11
# サイバーセキュリティ防衛:攻撃記述によるCVEタイプの探索

Cybersecurity Defenses: Exploration of CVE Types through Attack Descriptions ( http://arxiv.org/abs/2407.06759v2 )

ライセンス: Link先を確認
Refat Othman, Bruno Rossi, Barbara Russo, (参考訳) ソフトウェアセキュリティの脆弱性は、悪用された後も未発見のままである。 脆弱性への攻撃のリンクは、専門家がインシデントを特定し、即座に応答するのに役立つ。 本稿では,攻撃記述からシステム脆弱性を特定するために,文変換器MPNETを用いた分類ツールであるVULDATを紹介する。 また,ATT&CKレポジトリから100件,CVEレポジトリから685件のアタック手法を適用した。 次に,VULDATの性能を文変換器に基づく他の8つの最先端分類器と比較する。 その結果,F1スコアが0.85,精度が0.86,リコールが0.83,F1スコアが0.85,F1スコアが0.83であった。 さらに,攻撃に関連する脆弱性の56%がVULDATで同定され,その61%がCVEリポジトリにあることがわかった。

Vulnerabilities in software security can remain undiscovered even after being exploited. Linking attacks to vulnerabilities helps experts identify and respond promptly to the incident. This paper introduces VULDAT, a classification tool using a sentence transformer MPNET to identify system vulnerabilities from attack descriptions. Our model was applied to 100 attack techniques from the ATT&CK repository and 685 issues from the CVE repository. Then, we compare the performance of VULDAT against the other eight state-of-the-art classifiers based on sentence transformers. Our findings indicate that our model achieves the best performance with F1 score of 0.85, Precision of 0.86, and Recall of 0.83. Furthermore, we found 56% of CVE reports vulnerabilities associated with an attack were identified by VULDAT, and 61% of identified vulnerabilities were in the CVE repository.
翻訳日:2024-07-12 12:07:17 公開日:2024-07-11
# 美学を超えて: テキスト・画像モデルにおける文化的能力

Beyond Aesthetics: Cultural Competence in Text-to-Image Models ( http://arxiv.org/abs/2407.06863v2 )

ライセンス: Link先を確認
Nithish Kannen, Arif Ahmad, Marco Andreetto, Vinodkumar Prabhakaran, Utsav Prabhu, Adji Bousso Dieng, Pushpak Bhattacharyya, Shachi Dave, (参考訳) テキスト・ツー・イメージ(T2I)モデルは、さまざまなグローバルなコミュニティで採用され、独自の文化を視覚的に表現するようになっている。 現在のT2Iベンチマークは主に、文化的な能力の重要な側面を見越して、生成した画像の忠実さ、美学、リアリズムに焦点を当てている。 本稿では,文化意識と文化多様性という2つの重要な側面に沿って,T2Iモデルの文化的能力を評価する枠組みを導入するとともに,構造化知識ベースと大規模言語モデルを組み合わせたスケーラブルなアプローチを用いて,この評価を実現する。 特に,本手法を,T2Iモデルの文化的能力を評価するための第1級ベンチマークであるCUBE(Cutural BEnchmark for Text-to-Image Model)の構築に適用する。 CUBEは、異なる地理的文化圏の8か国、および3つの概念(料理、ランドマーク、芸術)に関連する文化的アーティファクトをカバーしている。 CUBEは 1)CUBE-1Kは、文化意識の評価を可能にする高品質なプロンプトのセットであり、 2)CUBE-CSpaceは、文化的多様性を評価するための基盤となる文化的アーティファクトのより大きなデータセットである。 品質重み付きベンディスコアを活用した新しいT2I評価コンポーネントとして,文化多様性も導入する。 本評価は,T2Iアウトプットの文化的多様性を,未指定のプロンプトに対して有意義な洞察を与えるとともに,既存モデルの文化的意識に重大なギャップを生じさせるものである。 我々の方法論は、他の文化地域や概念にも拡張可能であり、世界の人口により良いT2Iモデルの開発を促進することができる。

Text-to-Image (T2I) models are being increasingly adopted in diverse global communities where they create visual representations of their unique cultures. Current T2I benchmarks primarily focus on faithfulness, aesthetics, and realism of generated images, overlooking the critical dimension of cultural competence. In this work, we introduce a framework to evaluate cultural competence of T2I models along two crucial dimensions: cultural awareness and cultural diversity, and present a scalable approach using a combination of structured knowledge bases and large language models to build a large dataset of cultural artifacts to enable this evaluation. In particular, we apply this approach to build CUBE (CUltural BEnchmark for Text-to-Image models), a first-of-its-kind benchmark to evaluate cultural competence of T2I models. CUBE covers cultural artifacts associated with 8 countries across different geo-cultural regions and along 3 concepts: cuisine, landmarks, and art. CUBE consists of 1) CUBE-1K, a set of high-quality prompts that enable the evaluation of cultural awareness, and 2) CUBE-CSpace, a larger dataset of cultural artifacts that serves as grounding to evaluate cultural diversity. We also introduce cultural diversity as a novel T2I evaluation component, leveraging quality-weighted Vendi score. Our evaluations reveal significant gaps in the cultural awareness of existing models across countries and provide valuable insights into the cultural diversity of T2I outputs for under-specified prompts. Our methodology is extendable to other cultural regions and concepts, and can facilitate the development of T2I models that better cater to the global population.
翻訳日:2024-07-12 12:07:17 公開日:2024-07-11
# パンデミック時の高精度・公正な大学授業スケジューリング

High-Precision, Fair University Course Scheduling During a Pandemic ( http://arxiv.org/abs/2407.07355v2 )

ライセンス: Link先を確認
Matthew E. H. Petering, Mohammad Khamechian, (参考訳) 新型コロナウイルス(COVID-19)などのパンデミックに対応して実施されるソーシャルディスタンシング(ソーシャルディスタンシング)の要件により、教室の容量が減少するにつれて、大学コースのスケジュールがさらに難しくなる。 本研究は,授業提供モードの拡張された分類法,整数プログラムの提示,および全コース(最大でも)がパンデミック時に重要な教室学習コンポーネントを持つことを可能にするコーススケジューリングアルゴリズムの開発を提案する。 我々のアプローチは、教室で各コースセクションの特定の一部が実行されることを保証することで公平である。 従来の研究とは異なり、回転する出席は許されず、1つのセクションのすべての学生が1~5室で同時に会う同時出席を必要とするが、通常の学期よりは少ない。 個人による中間試験やグループ活動の機会を生み出すこれらの集団会議は、1週間ではなく、学期の全日にわたって高い精度で計画されている。 高速ヒューリスティックアルゴリズムは1時間でスケジュールを立てる。 結果:2022年度秋学期[大学XYZ]において,1834年度の個別講座,172教室,96日間について検討した。 パンデミックにより教室の容量が平均75%削減された場合、私たちのアプローチでは、各セクションで少なくとも25%、キャンパス全体では49%以上を教室に含めることができる。 また,本手法は,通常の授業課題に対して優れた結果をもたらす。 管理的意味: 公平性と同時出席の原理に基づくアルゴリズムは、パンデミックや通常の時間における大学コースのスケジュールを大幅に改善することができる。 様々なパンデミックの可能性に備えたキャンパスを準備する高精度のスケジュールは、最小限の行政努力で作成でき、アウトブレイクが発生した場合、学期前または学期中にその時点で起動される。

Scheduling university courses is extra challenging when classroom capacities are reduced because of social distancing requirements that are implemented in response to a pandemic such as COVID-19. In this work, we propose an expanded taxonomy of course delivery modes, present an integer program, and develop a course scheduling algorithm to enable all course sections -- even the largest -- to have a significant classroom learning component during a pandemic. Our approach is fair by ensuring that a certain fraction of the instruction in every course section occurs in the classroom. Unlike previous studies, we do not allow rotating attendance and instead require simultaneous attendance in which all students in a section meet in 1-5 rooms at the same time but less often than in a normal semester. These mass meetings, which create opportunities for in-person midterm exams and group activities, are scheduled at high precision across all days of the semester rather than a single, repeating week. A fast heuristic algorithm makes the schedule in an hour. Results: We consider the 1834 in-person course sections, 172 classrooms, and 96 days in the fall 2022 semester at [UniversityXYZ]. If average classroom capacity is reduced by 75% due to a pandemic, our approach still allows at least 25% of the instruction in every section, and more than 49% of all instruction across the entire campus, to be in the classroom. Our method also produces excellent results for regular classroom assignment. Managerial implications: An algorithm based on the principles of fairness and simultaneous attendance can significantly improve university course schedules during a pandemic and in normal times. High-precision schedules that prepare a campus for various pandemic possibilities can be created with minimal administrative effort and activated at a moment's notice before or during a semester if an outbreak occurs.
翻訳日:2024-07-12 12:07:17 公開日:2024-07-11
# 訓練可能な高発現活性化機能

Trainable Highly-expressive Activation Functions ( http://arxiv.org/abs/2407.07564v2 )

ライセンス: Link先を確認
Irit Chelly, Shahaf E. Finder, Shira Ifergane, Oren Freifeld, (参考訳) 非線形活性化関数は、ディープニューラルネットの成功に重要なものであり、適切な活性化関数を選択することは、それらの性能に大きな影響を与える。 ほとんどのネットワークは、固定活性化関数(例えば、ReLU、GELUなど)を使用しており、この選択は表現性を制限する可能性がある。 さらに、異なるレイヤは多様なアクティベーション関数の恩恵を受ける。 その結果、トレーニング可能なアクティベーション機能への関心が高まっている。 本稿では,効率的な微分同相変換(CPAB)に基づく訓練可能な高発現活性化関数であるDiTACを紹介する。 トレーニング可能なパラメータは無視できる数に過ぎなかったが、DiTACはモデル表現性と性能を高め、しばしば大幅な改善をもたらす。 また、セマンティックセグメンテーション、画像生成、回帰問題、画像分類といったタスクにおいて、既存のアクティベーション関数(後者が固定可能かトレーニング可能かに関わらず)を上回っている。 私たちのコードはhttps://github.com/BGU-CS-VIL/DiTAC.comで公開されています。

Nonlinear activation functions are pivotal to the success of deep neural nets, and choosing the appropriate activation function can significantly affect their performance. Most networks use fixed activation functions (e.g., ReLU, GELU, etc.), and this choice might limit their expressiveness. Furthermore, different layers may benefit from diverse activation functions. Consequently, there has been a growing interest in trainable activation functions. In this paper, we introduce DiTAC, a trainable highly-expressive activation function based on an efficient diffeomorphic transformation (called CPAB). Despite introducing only a negligible number of trainable parameters, DiTAC enhances model expressiveness and performance, often yielding substantial improvements. It also outperforms existing activation functions (regardless whether the latter are fixed or trainable) in tasks such as semantic segmentation, image generation, regression problems, and image classification. Our code is available at https://github.com/BGU-CS-VIL/DiTAC.
翻訳日:2024-07-12 12:07:17 公開日:2024-07-11
# コード生成評価データセットの漏洩について

On Leakage of Code Generation Evaluation Datasets ( http://arxiv.org/abs/2407.07565v2 )

ライセンス: Link先を確認
Alexandre Matton, Tom Sherborne, Dennis Aumiller, Elena Tommasone, Milad Alizadeh, Jingyi He, Raymond Ma, Maxime Voisin, Ellen Gilsenan-McMahon, Matthias Gallé, (参考訳) 本稿では,コード生成テストセットによる汚染について考察する。 このような汚染の原因を3つ議論し、それぞれを裏付ける知見を示す。 (i)直接データ漏洩 二 合成データを利用した間接的データ漏洩 三 モデル選択時の評価セットに過度に適合すること。 このデータセットはhttps://huggingface.co/datasets/CohereForAI/lbpp でリリースされています。

In this paper we consider contamination by code generation test sets, in particular in their use in modern large language models. We discuss three possible sources of such contamination and show findings supporting each of them: (i) direct data leakage, (ii) indirect data leakage through the use of synthetic data and (iii) overfitting to evaluation sets during model selection. Key to our findings is a new dataset of 161 prompts with their associated python solutions, dataset which is released at https://huggingface.co/datasets/CohereForAI/lbpp .
翻訳日:2024-07-12 12:07:17 公開日:2024-07-11
# MARS:微細テキスト・画像合成のための自己回帰モデルの混合

MARS: Mixture of Auto-Regressive Models for Fine-grained Text-to-image Synthesis ( http://arxiv.org/abs/2407.07614v2 )

ライセンス: Link先を確認
Wanggui He, Siming Fu, Mushui Liu, Xierui Wang, Wenyi Xiao, Fangxun Shu, Yi Wang, Lei Zhang, Zhelun Yu, Haoyuan Li, Ziwei Huang, LeiLei Gan, Hao Jiang, (参考訳) 自動回帰モデルは言語生成の領域において大きな進歩を遂げているが、画像合成の領域における拡散モデルと同等に機能しない。 本稿では,特殊設計されたセマンティックビジョン・ランゲージ統合エキスパート(Semantic Vision-Language Integration Expert, SemVIE)を組み込んだ,T2I世代のための新しいフレームワークであるMARSを紹介する。 この革新的なコンポーネントは、言語情報と視覚情報を独立に処理し、ビジュアルコンポーネントを微調整しながらテキストコンポーネントを凍結することにより、事前訓練されたLCMを統合する。 この手法は,LLMのNLP能力を保ちながら,例外的な視覚的理解を付与する。 事前訓練されたQwen-7Bの強力な基盤の上に構築されたMARSは、英語と中国語のプロンプトに対応するバイリンガル生成能力と、共同画像とテキスト生成能力で際立っている。 このフレームワークの柔軟性は、あらゆるタスク適応性へのマイグレーションを促します。 さらに、MARSは、まず相補的な双方向タスクを通じて堅牢な画像テキストアライメントを確立し、その後、T2I生成プロセスの精細化に集中し、テキスト画像の同期と画像詳細の粒度を著しく増大させるマルチステージトレーニング戦略を採用している。 特に、MARSはSD1.5に必要なGPU日のうち9%しか必要としないが、様々なベンチマークで顕著な結果が得られる。

Auto-regressive models have made significant progress in the realm of language generation, yet they do not perform on par with diffusion models in the domain of image synthesis. In this work, we introduce MARS, a novel framework for T2I generation that incorporates a specially designed Semantic Vision-Language Integration Expert (SemVIE). This innovative component integrates pre-trained LLMs by independently processing linguistic and visual information, freezing the textual component while fine-tuning the visual component. This methodology preserves the NLP capabilities of LLMs while imbuing them with exceptional visual understanding. Building upon the powerful base of the pre-trained Qwen-7B, MARS stands out with its bilingual generative capabilities corresponding to both English and Chinese language prompts and the capacity for joint image and text generation. The flexibility of this framework lends itself to migration towards any-to-any task adaptability. Furthermore, MARS employs a multi-stage training strategy that first establishes robust image-text alignment through complementary bidirectional tasks and subsequently concentrates on refining the T2I generation process, significantly augmenting text-image synchrony and the granularity of image details. Notably, MARS requires only 9% of the GPU days needed by SD1.5, yet it achieves remarkable results across a variety of benchmarks, illustrating the training efficiency and the potential for swift deployment in various applications.
翻訳日:2024-07-12 12:07:17 公開日:2024-07-11
# BiGym: デモ駆動のモバイル双方向操作ベンチマーク

BiGym: A Demo-Driven Mobile Bi-Manual Manipulation Benchmark ( http://arxiv.org/abs/2407.07788v2 )

ライセンス: Link先を確認
Nikita Chernyadev, Nicholas Backshall, Xiao Ma, Yunfan Lu, Younggyo Seo, Stephen James, (参考訳) モバイル双方向のデモ駆動ロボット操作のための新しいベンチマークと学習環境であるBiGymを紹介した。 BiGymには、シンプルなターゲットから複雑なキッチンクリーニングまで、40の多様なタスクがホーム環境に設定されている。 実世界のロボット軌道に現れる多彩なモダリティを反映し,実世界のパフォーマンスを正確に把握する。 BiGymは、プロプリセプティブデータやRGBなどの視覚入力、カメラビューからの深さなど、さまざまな観察をサポートする。 BiGymのユーザビリティを検証するため、環境内における最先端の模倣学習アルゴリズムとデモ駆動強化学習アルゴリズムを徹底的にベンチマークし、今後の可能性について議論する。

We introduce BiGym, a new benchmark and learning environment for mobile bi-manual demo-driven robotic manipulation. BiGym features 40 diverse tasks set in home environments, ranging from simple target reaching to complex kitchen cleaning. To capture the real-world performance accurately, we provide human-collected demonstrations for each task, reflecting the diverse modalities found in real-world robot trajectories. BiGym supports a variety of observations, including proprioceptive data and visual inputs such as RGB, and depth from 3 camera views. To validate the usability of BiGym, we thoroughly benchmark the state-of-the-art imitation learning algorithms and demo-driven reinforcement learning algorithms within the environment and discuss the future opportunities.
翻訳日:2024-07-12 12:07:17 公開日:2024-07-11
# Toto: 可観測性のための時系列最適化トランス

Toto: Time Series Optimized Transformer for Observability ( http://arxiv.org/abs/2407.07874v2 )

ライセンス: Link先を確認
Ben Cohen, Emaad Khwaja, Kan Wang, Charles Masson, Elise Ramé, Youssef Doubli, Othmane Abou-Amal, (参考訳) この技術レポートでは、Datadogが開発した時系列予測のための新しい最先端基盤モデルであるTime Series Optimized Transformer for Observability (Toto)について述べる。 電気や気象などの領域における一般時系列ベンチマークの最先端化に加えて、このモデルは観測可能性指標に特化して調整された初めての汎用時系列予測基盤モデルである。 Totoは、現在発行されているすべての時系列基礎モデルの中で最大である、1兆の時系列データポイントのデータセットでトレーニングされた。 公開されている時系列データセットに加えて、Totoのトレーニングに使われるデータの75%は、Datadogプラットフォームから完全に匿名の数値メトリックデータポイントで構成されている。 実験では、Totoは観測可能性データに基づく既存の時系列基礎モデルよりも優れています。 これはまた、汎用的な予測タスクに優れ、複数のオープンベンチマークデータセットで最先端のゼロショットパフォーマンスを達成する。

This technical report describes the Time Series Optimized Transformer for Observability (Toto), a new state of the art foundation model for time series forecasting developed by Datadog. In addition to advancing the state of the art on generalized time series benchmarks in domains such as electricity and weather, this model is the first general-purpose time series forecasting foundation model to be specifically tuned for observability metrics. Toto was trained on a dataset of one trillion time series data points, the largest among all currently published time series foundation models. Alongside publicly available time series datasets, 75% of the data used to train Toto consists of fully anonymous numerical metric data points from the Datadog platform. In our experiments, Toto outperforms existing time series foundation models on observability data. It does this while also excelling at general-purpose forecasting tasks, achieving state-of-the-art zero-shot performance on multiple open benchmark datasets.
翻訳日:2024-07-12 12:07:17 公開日:2024-07-11
# 浅低周波回路からの近似ユニタリ$k$-Designs

Approximate Unitary $k$-Designs from Shallow, Low-Communication Circuits ( http://arxiv.org/abs/2407.07876v2 )

ライセンス: Link先を確認
Nicholas LaRacuente, Felix Leditzky, (参考訳) ランダムユニタリは量子情報や関連分野において有用であるが、限られた資源で生成することは困難である。 近似ユニタリ$k$-デザインは、平均が最初の$k$モーメントまでの(一様)ランダムアンサンブルに近いようなユニタリと測度のアンサンブルである。 近似の特に強い概念は相対誤差におけるハールランダムネスからの距離の境界であり、近似設計は正確な設計を含む凸結合として記述できる。 我々はサブシステム間の通信がシステムサイズで$O(1)$である乗法誤り近似単位の$k$-designアンサンブルを構築する。 これらの構造は交互射影法を用いて重なり合うハール・ツワールを解析し、2ドルのノルムに関してフル・ツワールへの収束速度に制限を与える。 フォン・ノイマン部分代数指数を用いて系次元を置き換えると、2-ノルム距離は余剰次元依存を導入することなく相対誤差に変換される。 これらの構成を再帰することにより、相対誤差設計を$O \big ( (k \log k + \log m + \log(1/\epsilon) ) k\, \text{polylog}(k) \big )$ depth, ここで$m$はシステム全体のキューディット数であり、$\epsilon$は近似誤差である。 この線形深度構成は[Harrow and Mehraban 2023, Open Issue 1]の1つの変種に答える。 さらに、下線深度スキームによって生じる絡み合いは、空間格子上の領域法則に従って、全系サイズで対数的な補正を行う。

Random unitaries are useful in quantum information and related fields but hard to generate with limited resources. An approximate unitary $k$-design is an ensemble of unitaries and measure over which the average is close to a Haar (uniformly) random ensemble up to the first $k$ moments. A particularly strong notion of approximation bounds the distance from Haar randomness in relative error: the approximate design can be written as a convex combination involving an exact design and vice versa. We construct multiplicative-error approximate unitary $k$-design ensembles for which communication between subsystems is $O(1)$ in the system size. These constructions use the alternating projection method to analyze overlapping Haar twirls, giving a bound on the convergence speed to the full twirl with respect to the $2$-norm. Using von Neumann subalgebra indices to replace system dimension, the 2-norm distance converts to relative error without introducing any additional dimension dependence. Via recursion on these constructions, we construct a scheme yielding relative error designs in $O \big ( (k \log k + \log m + \log(1/\epsilon) ) k\, \text{polylog}(k) \big )$ depth, where $m$ is the number of qudits in the complete system and $\epsilon$ the approximation error. This sublinear depth construction answers one variant of [Harrow and Mehraban 2023, Open Problem 1]. Moreover, entanglement generated by the sublinear depth scheme follows area laws on spatial lattices up to corrections logarithmic in the full system size.
翻訳日:2024-07-12 12:07:17 公開日:2024-07-11
# AIによる医学におけるバーチャルリアリティ:総合的な調査

AI-Enhanced Virtual Reality in Medicine: A Comprehensive Survey ( http://arxiv.org/abs/2402.03093v3 )

ライセンス: Link先を確認
Yixuan Wu, Kaiyuan Hu, Danny Z. Chen, Jian Wu, (参考訳) コンピュータグラフィックスと人工知能技術の急速な進歩により、私たちが世界と対話する方法は変革的な変化を遂げた。 人工知能(AI)が支援するVR(Virtual Reality)技術は、ユーザに対して没入感のあるエクスペリエンスを提供するというメリットのおかげで、複数のアプリケーション領域において、主要なインタラクションメディアとして登場した。 これらの応用の中で、医学は最も有望な分野の1つであると考えられている。 本稿では,医療・サービスにおけるAIによるVR応用の急成長分野を包括的に検討する。 体系的な分類法を導入することで、関連する技術と応用を、可視化強化、VR関連医療データ処理、VR支援インターベンションという、診断と治療の異なるフェーズに基づいて、明確に3つのカテゴリに分類する。 この分類は、医療領域でAIによって駆動されるVRが果たす様々な役割を構造化した探索を可能にし、これらの技術のより包括的な理解と評価のためのフレームワークを提供する。 われわれの知る限りでは、医療現場におけるAIを利用したVRシステムの体系的な調査はこれが初めてであり、この学際分野における将来の研究の基盤となる。

With the rapid advance of computer graphics and artificial intelligence technologies, the ways we interact with the world have undergone a transformative shift. Virtual Reality (VR) technology, aided by artificial intelligence (AI), has emerged as a dominant interaction media in multiple application areas, thanks to its advantage of providing users with immersive experiences. Among those applications, medicine is considered one of the most promising areas. In this paper, we present a comprehensive examination of the burgeoning field of AI-enhanced VR applications in medical care and services. By introducing a systematic taxonomy, we meticulously classify the pertinent techniques and applications into three well-defined categories based on different phases of medical diagnosis and treatment: Visualization Enhancement, VR-related Medical Data Processing, and VR-assisted Intervention. This categorization enables a structured exploration of the diverse roles that AI-powered VR plays in the medical domain, providing a framework for a more comprehensive understanding and evaluation of these technologies. To our best knowledge, this is the first systematic survey of AI-powered VR systems in medical settings, laying a foundation for future research in this interdisciplinary domain.
翻訳日:2024-07-12 11:44:36 公開日:2024-07-11
# 量子計測のエネルギーコストに対する熱力学的一貫したアプローチ

A thermodynamically consistent approach to the energy costs of quantum measurements ( http://arxiv.org/abs/2402.16037v4 )

ライセンス: Link先を確認
Camille L Latune, Cyril Elouard, (参考訳) 熱浴に結合した量子プローブからなる量子測定装置の一般的な顕微鏡モデルを考えると,システム・アパラトリー相関の生成,一定の結果の統計的混合への不可逆的な遷移,及び装置リセットを含む,量子測定の実現に必要なエネルギー資源を解析する。 重要なことは、客観的な測定結果の出現を捉えるために、別の量子測定に頼らず、その測定結果をその自由度で冗長に記録する熱浴の特性を利用して、自然に量子ダーウィン主義のパラダイムを実装している。 実際に,本モデルを用いて測定プロセスの定量的熱力学解析を行うことができる。 第2法則の表現から, 必要最小限の作業が, 測定対象システムのエネルギー変動と, 測定性能, 効率, 完全性を特徴づける情報理論量に依存することを示す。 さらに、熱力学的に可逆な測定が可能であり、最小限の作業費に到達し、対応するプロトコルを提供する。 最後に、有限時間測定プロトコルについて、有限時間熱力学過程に固有のエントロピー生成の増大による作業コストの増加について説明する。 これは、測定の効率と作業コストの間のトレードオフに加えて、測定の速度と作業コストの間のトレードオフが増大していることを強調します。

Considering a general microscopic model for a quantum measuring apparatus comprising a quantum probe coupled to a thermal bath, we analyze the energetic resources necessary for the realization of a quantum measurement, which includes the creation of system-apparatus correlations, the irreversible transition to a statistical mixture of definite outcomes, and the apparatus resetting. Crucially, we do not resort to another quantum measurement to capture the emergence of objective measurement results, but rather exploit the properties of the thermal bath which redundantly records the measurement result in its degrees of freedom, naturally implementing the paradigm of quantum Darwinism. In practice, this model allows us to perform a quantitative thermodynamic analysis for the measurement process. From the expression of the second law, we show how the minimal required work depends on the energy variation of the system being measured plus information-theoretic quantities characterizing the performance of the measurement -- efficiency and completeness. Additionally, we show that it is possible to perform a thermodynamically reversible measurement, thus reaching the minimal work expenditure, and provide the corresponding protocol. Finally, for finite-time measurement protocols, we illustrate the increasing work cost induced by rising entropy production inherent of finite-time thermodynamic processes. This highlights an emerging trade-off between velocity of the measurement and work cost, on top of a trade-off between efficiency of the measurement and work cost.
翻訳日:2024-07-12 11:44:36 公開日:2024-07-11
# 画像品質評価のための多モーダル大言語モデルの総合的研究

A Comprehensive Study of Multimodal Large Language Models for Image Quality Assessment ( http://arxiv.org/abs/2403.10854v3 )

ライセンス: Link先を確認
Tianhe Wu, Kede Ma, Jie Liang, Yujiu Yang, Lei Zhang, (参考訳) MLLM(Multimodal Large Language Models)は、視覚的理解と推論において大きな進歩を遂げてきたが、画像品質評価(IQA)のための強力で柔軟性があり、解釈可能で、テキスト駆動型モデルとして機能する可能性はほとんど研究されていない。 本稿では,IQAに対するMLLMの促進に関する包括的かつ体系的な研究を行う。 まず,心理物理学における3つの標準的なテスト手順(単一刺激法,二重刺激法,多重刺激法)と自然言語処理における3つの一般的なプロンプト戦略(標準,文脈,チェーン・オブ・シークレット・プロンプト)の組み合わせとして,MLLMの9つのプロンプトシステムについて検討した。 次に,サンプルの多様性と不確実性を考慮に入れたサンプル選択手法を提案し,それぞれに最適なプロンプトシステムを備えたMLLMに挑戦する。 本研究では,3つのオープンソースMLLMと1つのクローズドソースMLLMを,画像品質の視覚的特性(構造的およびテクスチュラルな歪み,幾何学的変換,色差)を,全参照シナリオと非参照シナリオの両方で評価する。 実験結果から, クローズドソース GPT-4V は, 画像品質に対する人間の認識に妥当な指標となるが, きめ細かな品質変化(色差など)を識別し, 複数画像の視覚的品質を比較する際には, 人間の努力を伴わないことが示唆された。

While Multimodal Large Language Models (MLLMs) have experienced significant advancement in visual understanding and reasoning, their potential to serve as powerful, flexible, interpretable, and text-driven models for Image Quality Assessment (IQA) remains largely unexplored. In this paper, we conduct a comprehensive and systematic study of prompting MLLMs for IQA. We first investigate nine prompting systems for MLLMs as the combinations of three standardized testing procedures in psychophysics (i.e., the single-stimulus, double-stimulus, and multiple-stimulus methods) and three popular prompting strategies in natural language processing (i.e., the standard, in-context, and chain-of-thought prompting). We then present a difficult sample selection procedure, taking into account sample diversity and uncertainty, to further challenge MLLMs equipped with the respective optimal prompting systems. We assess three open-source and one closed-source MLLMs on several visual attributes of image quality (e.g., structural and textural distortions, geometric transformations, and color differences) in both full-reference and no-reference scenarios. Experimental results show that only the closed-source GPT-4V provides a reasonable account for human perception of image quality, but is weak at discriminating fine-grained quality variations (e.g., color differences) and at comparing visual quality of multiple images, tasks humans can perform effortlessly.
翻訳日:2024-07-12 11:44:36 公開日:2024-07-11
# 新規アンサンブル法によるロバストCATE推定

Robust CATE Estimation Using Novel Ensemble Methods ( http://arxiv.org/abs/2407.03690v3 )

ライセンス: Link先を確認
Oshri Machluf, Tzviel Frostig, Gal Shoham, Tomer Milo, Elad Berkman, Raviv Pryluk, (参考訳) 臨床治験における条件平均治療効果(CATE)の評価は治療効果の不均一性の理解に不可欠である。 我々は,様々なシナリオの共通手法の性能を評価し,各手法が1つ以上のテストシナリオで苦労していることを明らかにする。 実生活シナリオにおけるデータ生成プロセスの本質的な不確実性を考えると、CATE推定器の様々なシナリオに対する堅牢性はその信頼性にとって重要である。 既存手法のこの制限に対処するため、予測安定性と性能を向上させるために複数の推定器を統合する2つの新しいアンサンブル手法を提案する。 これらのモデルは, 癌治療におけるPD-L1阻害経路の生物学的モデルを含む, 複雑さ, サンプルサイズ, 基礎機構の構造など, 幅広いシナリオにおいて良好な性能を示すことを示す。 さらに,R-StackingやCausal-Stackingなど,他のアンサンブル手法との比較でも,Stacked X-Learnerの性能向上が示された。

The estimation of Conditional Average Treatment Effects (CATE) is crucial for understanding the heterogeneity of treatment effects in clinical trials. We evaluate the performance of common methods, including causal forests and various meta-learners, across a diverse set of scenarios, revealing that each of the methods struggles in one or more of the tested scenarios. Given the inherent uncertainty of the data-generating process in real-life scenarios, the robustness of a CATE estimator to various scenarios is critical for its reliability. To address this limitation of existing methods, we propose two new ensemble methods that integrate multiple estimators to enhance prediction stability and performance - Stacked X-Learner which uses the X-Learner with model stacking for estimating the nuisance functions, and Consensus Based Averaging (CBA), which averages only the models with highest internal agreement. We show that these models achieve good performance across a wide range of scenarios varying in complexity, sample size and structure of the underlying-mechanism, including a biologically driven model for PD-L1 inhibition pathway for cancer treatment. Furthermore, we demonstrate improved performance by the Stacked X-Learner also when comparing to other ensemble methods, including R-Stacking, Causal-Stacking and others.
翻訳日:2024-07-12 11:44:36 公開日:2024-07-11
# PAS:データ効率の良いPlug-and-Play Prompt Augmentation System

PAS: Data-Efficient Plug-and-Play Prompt Augmentation System ( http://arxiv.org/abs/2407.06027v2 )

ライセンス: Link先を確認
Miao Zheng, Hao Liang, Fan Yang, Haoze Sun, Tianpeng Li, Lingchu Xiong, Yan Zhang, Youzhen Wu, Kun Li, Yanjun Shen, Mingan Lin, Tao Zhang, Guosheng Dong, Yujing Qiao, Kun Fang, Weipeng Chen, Bin Cui, Wentao Zhang, Zenan Zhou, (参考訳) 近年、Large Language Models(LLMs)の台頭により、プラグアンドプレイAIシステムへの需要が高まっている。 様々なAI技術の中で、プロンプトエンジニアリングは特に重要である。 しかし、学習曲線の急激さや時間投資の大幅な増加により、ユーザーはプロンプトを書くことの難しさに直面することが多く、既存の自動プロンプトエンジニアリング(APE)モデルを使用することは困難である。 この問題に対処するために, LLM ベースのプラグアンドプレイ APE システム PAS を提案する。 PASは高品質で自動生成される補完的なデータセットに基づいてトレーニングされたLLMを使用し、例外的なパフォーマンスを実現している。 総合的なベンチマークでは、PASは従来のAPEモデルと比較して、平均6.09ポイントの改善を達成している。 さらに、PASは非常に効率的で、9000のデータポイントしか持たないSoTAの性能を実現している。 さらに、PASは人的労働を必要とせずに、即時増強データを自律的に生成することができる。 この柔軟性により、既存のすべてのLLMと互換性があり、幅広いタスクに適用できる。 PASは人間の評価に優れており、ユーザのためのプラグインとしての適合性を強調している。 高い性能、効率、柔軟性の組み合わせにより、PASはプロンプトエンジニアリングの改善を通じてLCMのユーザビリティと有効性を向上する貴重なシステムとなっている。

In recent years, the rise of Large Language Models (LLMs) has spurred a growing demand for plug-and-play AI systems. Among the various AI techniques, prompt engineering stands out as particularly significant. However, users often face challenges in writing prompts due to the steep learning curve and significant time investment, and existing automatic prompt engineering (APE) models can be difficult to use. To address this issue, we propose PAS, an LLM-based plug-and-play APE system. PAS utilizes LLMs trained on high-quality, automatically generated prompt complementary datasets, resulting in exceptional performance. In comprehensive benchmarks, PAS achieves state-of-the-art (SoTA) results compared to previous APE models, with an average improvement of 6.09 points. Moreover, PAS is highly efficient, achieving SoTA performance with only 9000 data points. Additionally, PAS can autonomously generate prompt augmentation data without requiring additional human labor. Its flexibility also allows it to be compatible with all existing LLMs and applicable to a wide range of tasks. PAS excels in human evaluations, underscoring its suitability as a plug-in for users. This combination of high performance, efficiency, and flexibility makes PAS a valuable system for enhancing the usability and effectiveness of LLMs through improved prompt engineering.
翻訳日:2024-07-12 11:44:36 公開日:2024-07-11
# Majorana Tensor Decomposition: フェルミオンハミルトニアンをユニタリの線形結合に分解するための統一フレームワーク

Majorana Tensor Decomposition: A unifying framework for decompositions of fermionic Hamiltonians to Linear Combination of Unitaries ( http://arxiv.org/abs/2407.06571v2 )

ライセンス: Link先を確認
Ignacio Loaiza, Artur F. Izmaylov, (参考訳) ユニタリ(LCU)分解の線形結合は、量子コンピュータ上の演算子を符号化する主要なツールの1つとして現れ、任意の演算子の効率的な実装を可能にしている。 特に、LCUアプローチは、電子構造ハミルトニアンから量子回路に情報を符号化する方法を示す。 過去数年間、電子構造ハミルトニアンに多くの異なる分解技術が出現してきた。 ここでは,既存のLCUを統一するフレームワークであるMajorana Tensor Decomposition(MTD)について述べる。

Linear combination of unitaries (LCU) decompositions have appeared as one of the main tools for encoding operators on quantum computers, allowing efficient implementations of arbitrary operators. In particular, LCU approaches present a way of encoding information from the electronic structure Hamiltonian into a quantum circuit. Over the past years, many different decomposition techniques have appeared for the electronic structure Hamiltonian. Here we present the Majorana Tensor Decomposition (MTD), a framework that unifies existing LCUs and offers novel decomposition methods by using popular low-rank tensor factorizations.
翻訳日:2024-07-12 11:44:36 公開日:2024-07-11
# エントロピー法:データ圧縮とLLMパフォーマンスの背後にある物語

Entropy Law: The Story Behind Data Compression and LLM Performance ( http://arxiv.org/abs/2407.06645v3 )

ライセンス: Link先を確認
Mingjia Yin, Chuhan Wu, Yufei Wang, Hao Wang, Wei Guo, Yasheng Wang, Yong Liu, Ruiming Tang, Defu Lian, Enhong Chen, (参考訳) データは大きな言語モデル(LLM)の基盤であるが、すべてのデータがモデル学習に役立つわけではない。 慎重に選択されたデータは、計算オーバーヘッドをはるかに少なくしてLLMの能力を引き出すことができる。 多くの場合,データ選択における個々のサンプルの品質評価に重点を置いているが,サンプル間の組合せ効果は無視されている。 各標本が完全な品質であっても、それらの組み合わせは固有の均一性や矛盾のためにLLMを教えるのに最適である。 本稿では,LLMの性能とデータ選択の関係を明らかにすることを目的とする。 LLMの情報圧縮特性に着想を得て,LLMの性能とデータ圧縮率を結びつける「エントロピー法則」と,データセットの情報冗長性と,このデータセットに符号化された固有知識の習得を反映した第1のエポックトレーニング損失を明らかにする。 理論的推論と経験的評価の両方を通して、モデル性能はトレーニングデータの圧縮比と負の相関関係にあり、通常、トレーニング損失は低い。 エントロピー法則の知見に基づいて,低圧縮比を示すデータサブセットの優先順位付けを目的とした,LLMのトレーニングのための,非常に効率的で普遍的なデータ選択法である「textbf{ZIP}」を提案する。 多様なデータを選択する多段階アルゴリズムに基づいて、良好な多様性を持つ優れたデータサブセットを得ることができる。 異なるLLMバックボーンとアライメントステージにおけるエントロピー法則とZIPの優位性を検証するために、広範囲にわたる実験が行われた。 また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。

Data is the cornerstone of large language models (LLMs), but not all data is useful for model learning. Carefully selected data can better elicit the capabilities of LLMs with much less computational overhead. Most methods concentrate on evaluating the quality of individual samples in data selection, while the combinatorial effects among samples are neglected. Even if each sample is of perfect quality, their combinations may be suboptimal in teaching LLMs due to their intrinsic homogeneity or contradiction. In this paper, we aim to uncover the underlying relationships between LLM performance and data selection. Inspired by the information compression nature of LLMs, we uncover an ``entropy law'' that connects LLM performance with data compression ratio and first-epoch training loss, which reflect the information redundancy of a dataset and the mastery of inherent knowledge encoded in this dataset, respectively. Through both theoretical deduction and empirical evaluation, we find that model performance is negatively correlated to the compression ratio of training data, which usually yields a lower training loss. Based on the findings of the entropy law, we propose a quite efficient and universal data selection method named \textbf{ZIP} for training LLMs, which aim to prioritize data subsets exhibiting a low compression ratio. Based on a multi-stage algorithm that selects diverse data in a greedy manner, we can obtain a good data subset with satisfactory diversity. Extensive experiments have been conducted to validate the entropy law and the superiority of ZIP across different LLM backbones and alignment stages. We also present an interesting application of entropy law that can detect potential performance risks at the beginning of model training.
翻訳日:2024-07-12 11:44:36 公開日:2024-07-11
# 遷移経路工学による条件付き運転の実現

Realization of Conditional Operations through Transition Pathway Engineering ( http://arxiv.org/abs/2407.06687v2 )

ライセンス: Link先を確認
Sheng Zhang, Peng Duan, Yun-Jie Wang, Tian-Le Wang, Peng Wang, Ren-Ze Zhao, Xiao-Yan Yang, Ze-An Zhao, Liang-Liang Guo, Yong Chen, Hai-Feng Zhang, Lei Du, Hao-Ran Tao, Zhi-Fei Li, Yuan Wu, Zhi-Long Jia, Wei-Cheng Kong, Zhao-Yun Chen, Yu-Chun Wu, Guo-Ping Guo, (参考訳) NISQ時代、大規模な量子コンピューティングを実現するためには、デコヒーレンスとゲートエラーの蓄積を緩和するためにコンパクトな回路が必要である。 様々な自由度を持つ量子演算は回路圧縮を約束するが、従来の手法は複数のパラメータを同時に調整する際の課題に直面する。 本稿では,状態選択型遷移経路工学に基づく遷移複合ゲート(TCG)方式を提案する。 制御ユニタリゲート(CU)を独立パラメータと連続パラメータで実験的に検証する。 $\rm X^{12}$ gate のパラメータを調整することで、量子プロセストモグラフィ(QPT)を利用した95.2%から99.0%の範囲のCUファミリーが得られる。 回路圧縮の能力を実証するために、TGスキームを用いて3量子グリーンバーガー・ホーネ・ザイリンガー(GHZ)およびW状態を作成し、その忠実度は96.77%と95.72%である。 TCGはCZゲートのみを使用する場合に比べて回路深さが約40%から44%減少する。 さらに,ショートパスTCG(SPTCG)により,状態調整回路の時間コストをさらに削減できることを示す。 TCGスキームは特定の量子回路の利点を示し、大規模量子アルゴリズムに大きな可能性を示す。

In the NISQ era, achieving large-scale quantum computing demands compact circuits to mitigate decoherence and gate error accumulation. Quantum operations with diverse degrees of freedom hold promise for circuit compression, but conventional approaches encounter challenges in simultaneously adjusting multiple parameters. Here, we propose a transition composite gate (TCG) scheme grounded on state-selective transition path engineering, enabling more expressive conditional operations. We experimentally validate a controlled unitary (CU) gate as an example, with independent and continuous parameters. By adjusting the parameters of $\rm X^{12}$ gate, we obtain the CU family with a fidelity range of 95.2% to 99.0% leveraging quantum process tomography (QPT). To demonstrate the capability of circuit compression, we use TCG scheme to prepare 3-qubit Greenberger-Horne-Zeilinger (GHZ) and W states, with the fidelity of 96.77% and 95.72%. TCG can achieve the reduction in circuit depth of about 40% and 44% compared with the use of CZ gates only. Moreover, we show that short-path TCG (SPTCG) can further reduce the state-preparation circuit time cost. The TCG scheme exhibits advantages in certain quantum circuits and shows significant potential for large-scale quantum algorithms.
翻訳日:2024-07-12 11:44:36 公開日:2024-07-11
# Differentially Private Multiway と $k$-Cut

Differentially Private Multiway and $k$-Cut ( http://arxiv.org/abs/2407.06911v2 )

ライセンス: Link先を確認
Rishi Chandra, Michael Dinitz, Chenglin Fan, Zongrui Zou, (参考訳) 本稿では,グラフカットの文脈における差分プライバシの課題,特に$k$カットとマルチウェイカットの問題に焦点をあてる。 これらの問題に対して、ほぼ最適な性能を実現するために、エッジ微分プライベートアルゴリズムを導入する。 マルチウェイカット問題に対して、我々はまず、最先端の非プライベートアルゴリズムと一致する乗法近似比のプライベートアルゴリズムを提供する。 次に、重み付きグラフ上のアルゴリズムが定数$k$に対してほぼ最適であることを証明し、加法誤差の厳密な情報理論の下界を示す。 最小$k$-cut問題に対して、我々のアルゴリズムは、近似$k$-cutの個数に対する既知のバウンダリを活用し、固定プライバシーパラメータに対して最適な加算誤差$O(k\log n)$のプライベートアルゴリズムを実現する。 また、この加算誤差と一致する情報理論の下限も確立する。 さらに、非コンスタントな$k$に対しても、$k$カットの効率的なプライベートアルゴリズムを、$\widetilde{O}(k^{1.5})$の加算誤差を持つ多項式時間2-近似を含む形で提供する。

In this paper, we address the challenge of differential privacy in the context of graph cuts, specifically focusing on the minimum $k$-cut and multiway cut problems. We introduce edge-differentially private algorithms that achieve nearly optimal performance for these problems. For the multiway cut problem, we first provide a private algorithm with a multiplicative approximation ratio that matches the state-of-the-art non-private algorithm. We then present a tight information-theoretic lower bound on the additive error, demonstrating that our algorithm on weighted graphs is near-optimal for constant $k$. For the minimum $k$-cut problem, our algorithms leverage a known bound on the number of approximate $k$-cuts, resulting in a private algorithm with optimal additive error $O(k\log n)$ for fixed privacy parameter. We also establish a information-theoretic lower bound that matches this additive error. Additionally, we give an efficient private algorithm for $k$-cut even for non-constant $k$, including a polynomial-time 2-approximation with an additive error of $\widetilde{O}(k^{1.5})$.
翻訳日:2024-07-12 11:44:36 公開日:2024-07-11
# RodinHD:拡散モデルによる高忠実度3Dアバター生成

RodinHD: High-Fidelity 3D Avatar Generation with Diffusion Models ( http://arxiv.org/abs/2407.06938v2 )

ライセンス: Link先を確認
Bowen Zhang, Yiji Cheng, Chunyu Wang, Ting Zhang, Jiaolong Yang, Yansong Tang, Feng Zhao, Dong Chen, Baining Guo, (参考訳) ポートレート画像から高忠実度3Dアバターを生成できるRodinHDを提案する。 既存の手法では,本論文で取り組んだヘアスタイルのような複雑な細部を捉えることができない。 我々はまず,MLPデコーダ共有方式により,複数のアバターに連続的に三葉飛行機を取り付けたときに発生する破滅的忘れの問題を明らかにする。 この問題を解決するために、よりシャープな詳細を描画するデコーダの能力を向上する新しいデータスケジューリング戦略と重み付け正規化項を提起する。 さらに,より微細な階層表現を計算し,リッチな2次元テクスチャキューをキャプチャし,複数の層での3次元拡散モデルに注入することにより,ポートレート画像の導出効果を最適化する。 三葉機用に最適化されたノイズスケジュールを持つ46Kアバターでトレーニングを行うと、得られたモデルは従来の方法よりも顕著に詳細な3Dアバターを生成することができ、幅内ポートレート入力に一般化することができる。

We present RodinHD, which can generate high-fidelity 3D avatars from a portrait image. Existing methods fail to capture intricate details such as hairstyles which we tackle in this paper. We first identify an overlooked problem of catastrophic forgetting that arises when fitting triplanes sequentially on many avatars, caused by the MLP decoder sharing scheme. To overcome this issue, we raise a novel data scheduling strategy and a weight consolidation regularization term, which improves the decoder's capability of rendering sharper details. Additionally, we optimize the guiding effect of the portrait image by computing a finer-grained hierarchical representation that captures rich 2D texture cues, and injecting them to the 3D diffusion model at multiple layers via cross-attention. When trained on 46K avatars with a noise schedule optimized for triplanes, the resulting model can generate 3D avatars with notably better details than previous methods and can generalize to in-the-wild portrait input.
翻訳日:2024-07-12 11:33:49 公開日:2024-07-11
# SNN配置最適化のためのPairwise Ising型最大エントロピーモデル統合コスト関数の考案の試み

An Attempt to Devise a Pairwise Ising-Type Maximum Entropy Model Integrated Cost Function for Optimizing SNN Deployment ( http://arxiv.org/abs/2407.07014v2 )

ライセンス: Link先を確認
Wanhong Huang, (参考訳) スパイキングニューラルネットワーク(SNN)のデプロイメントプロセスは、しばしばニューラルネットワークを分割し、これらのパーティションをニューロモルフィックハードウェア内の処理ユニットにマッピングする。 最適配置方式を見つけることはNPハード問題である。 これらのスキームを最適化することは、特に通信時間消費やエネルギー効率といった計算効率の良いコスト関数を最適化する目的を考案する際の課題を示す。 これらの目的には、神経活動パターンによって形成されるネットワーク力学を考慮し、SNN開発のためのコストモデルに統合するために複雑な数学的解析やシミュレーションを必要とする。 本手法は,ハードウェアに依存しないネットワークダイナミクスに着目し,特定のハードウェア構成とは独立してモデル化できる。 協調システムにおけるシステムコンポーネント間のペアワイズ相関を正確に把握する上で有効なモデルであるペアワイズ型最大エントロピーモデルを用いる。 このモデルの上に、コスト関数を考案するために、ハードウェアとネットワーク構造固有の要素を組み込む。 SpiNNaker マシンを用いた極めて予備的な調査を行った。 等化モデルトレーニングは計算的に複雑であることを示す。 現在,提案手法の有効性を裏付ける十分な証拠が得られていない。 ネットワークダイナミクスをSNNデプロイメントに統合するためには、さらなる努力が必要である。

The deployment process of a spiking neural network (SNN) often involves partitioning the neural network and mapping these partitions onto processing units within the neuromorphic hardware. Finding optimal deployment schemes is an NP-hard problem. Optimizing these schemes presents challenges, particular in devising computationally effective cost functions optimization objectives such as communication time consumption and energy efficiency. These objectives require consideration of network dynamics shaped by neuron activity patterns, demanding intricate mathematical analyses or simulations for integrating them into a cost model for SNN development. Our approach focuses on network dynamics, which are hardware-independent and can be modeled separately from specific hardware configurations. We employ a pairwise Ising-type maximum entropy model, which is a model show effective in accurately capturing pairwise correlations among system components in a collaborative system. On top of this model, we incorporates hardware and network structure-specific factors to devise a cost function. We conducted an extremely preliminary investigation using the SpiNNaker machine. We show that the ising model training can also be computationally complex. Currently, we lack sufficient evidence to substantiate the effectiveness of our proposed methods. Further efforts is needed to explore integrating network dynamics into SNN deployment.
翻訳日:2024-07-12 11:33:49 公開日:2024-07-11
# HiLight: Motern AIビデオ言語モデルに関する技術レポート

HiLight: Technical Report on the Motern AI Video Language Model ( http://arxiv.org/abs/2407.07325v2 )

ライセンス: Link先を確認
Zhiting Wang, Qiangong Zhou, Kangjie Yang, Zongyang Liu, Xin Mao, (参考訳) 本技術報告では,ビデオテキストアライメントのための最先端ビデオエンコーダと,デュアルビジュアルタワーを備えたHiLightと呼ばれるビデオ会話フレームワークの実装について述べる。 作業内容は,ビデオとテキストのモダリティのアライメント,ユーザとの対話の持続的かつ効率的な方法の2つに分けられる。 我々のゴールはビリヤードの文脈におけるビデオ理解の課題に対処することである。 このレポートには、タスクの実装時に開発された概念と最終ソリューションに関する議論が含まれている。

This technical report presents the implementation of a state-of-the-art video encoder for video-text modal alignment and a video conversation framework called HiLight, which features dual visual towers. The work is divided into two main parts: 1.alignment of video and text modalities; 2.convenient and efficient way to interact with users. Our goal is to address the task of video comprehension in the context of billiards. The report includes a discussion of the concepts and the final solution developed during the task's implementation.
翻訳日:2024-07-12 11:33:49 公開日:2024-07-11
# FALFormer:全スライディング画像分類のための特徴認識ランドマークの自己注意

FALFormer: Feature-aware Landmarks self-attention for Whole-slide Image Classification ( http://arxiv.org/abs/2407.07340v2 )

ライセンス: Link先を確認
Doanh C. Bui, Trinh Thi Le Vuong, Jin Tae Kwak, (参考訳) 全スライド画像(WSI)のスライドレベル分類は、デジタルおよび計算病理学において重要な問題として広く認識されている。 現在のアプローチでは、WSIは、パッチの収集と、多数のパッチによる複数のインスタンス学習による処理であり、パッチ間の関係を十分に調べることができない。 本稿では,WSI全体を全体として処理し,パッチ間の関係を十分に活用し,分類性能を向上させるための,効率的かつ効果的なスライドレベル分類モデルFALFormerを提案する。 FALFormerはTransformerとセルフアテンションメカニズムに基づいて構築されている。 オリジナルの自己アテンション機構の計算負担を軽減し、パッチ全体をWSIで処理するために、FALFormer は Nystr\"om self-attention を用いて、少ない数のトークンやランドマークを使用して計算を近似する。 効果的な学習のために、FALFormerは、ランドマークの表現力と近似の品質を高めるために、特徴対応ランドマークを導入した。 CAMELYON16とTCGA-BRCAの2つの公開データセットを用いてFALFormerの性能を体系的に評価した。 実験の結果、FALFormerは両方のデータセットで優れた性能を示し、スライドレベルの分類における最先端の手法よりも優れていた。 このことは、FALFormerがWSIの正確かつ正確な分析を容易にし、WSIの診断と予後を改善する可能性があることを示唆している。

Slide-level classification for whole-slide images (WSIs) has been widely recognized as a crucial problem in digital and computational pathology. Current approaches commonly consider WSIs as a bag of cropped patches and process them via multiple instance learning due to the large number of patches, which cannot fully explore the relationship among patches; in other words, the global information cannot be fully incorporated into decision making. Herein, we propose an efficient and effective slide-level classification model, named as FALFormer, that can process a WSI as a whole so as to fully exploit the relationship among the entire patches and to improve the classification performance. FALFormer is built based upon Transformers and self-attention mechanism. To lessen the computational burden of the original self-attention mechanism and to process the entire patches together in a WSI, FALFormer employs Nystr\"om self-attention which approximates the computation by using a smaller number of tokens or landmarks. For effective learning, FALFormer introduces feature-aware landmarks to enhance the representation power of the landmarks and the quality of the approximation. We systematically evaluate the performance of FALFormer using two public datasets, including CAMELYON16 and TCGA-BRCA. The experimental results demonstrate that FALFormer achieves superior performance on both datasets, outperforming the state-of-the-art methods for the slide-level classification. This suggests that FALFormer can facilitate an accurate and precise analysis of WSIs, potentially leading to improved diagnosis and prognosis on WSIs.
翻訳日:2024-07-12 11:33:49 公開日:2024-07-11
# HAFormer: 軽量セマンティックセマンティックセグメンテーションのための階層型機能の拡張

HAFormer: Unleashing the Power of Hierarchy-Aware Features for Lightweight Semantic Segmentation ( http://arxiv.org/abs/2407.07441v2 )

ライセンス: Link先を確認
Guoan Xu, Wenjing Jia, Tao Wu, Ligeng Chen, Guangwei Gao, (参考訳) 畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、セマンティックセグメンテーションタスクにおいて大きな成功を収めている。 CNNとTransformerモデルを統合することで、ローカルとグローバルの両方のコンテキストインタラクションをキャプチャする。 しかし、特に計算資源の制約を考慮すると、拡張の余地は残っている。 本稿では,CNNの階層的特徴抽出能力とトランスフォーマーのグローバル依存性モデリング能力を組み合わせて,軽量なセマンティックセグメンテーション課題に取り組むモデルであるHAFormerを紹介する。 具体的には、適応型マルチスケール局所特徴抽出のための階層型画素励起(HAPE)モジュールを設計する。 グローバルな知覚モデルにおいて、従来の変換器と関連する2次計算を合理化する効率的な変換器(ET)モジュールを考案する。 さらに、相関重み付きFusion(cwF)モジュールは、様々な特徴表現を選択的にマージし、予測精度を大幅に向上させる。 HAFormerは最小の計算オーバーヘッドとコンパクトモデルサイズでハイパフォーマンスを実現し、Cityscapesでは74.2% mIoU、CamVidテストデータセットでは71.1% mIoU、単一の2080Ti GPUでは105FPSと118FPSのフレームレートを実現している。 ソースコードはhttps://github.com/XU-GITHUB-curry/HAFormerで入手できる。

Both Convolutional Neural Networks (CNNs) and Transformers have shown great success in semantic segmentation tasks. Efforts have been made to integrate CNNs with Transformer models to capture both local and global context interactions. However, there is still room for enhancement, particularly when considering constraints on computational resources. In this paper, we introduce HAFormer, a model that combines the hierarchical features extraction ability of CNNs with the global dependency modeling capability of Transformers to tackle lightweight semantic segmentation challenges. Specifically, we design a Hierarchy-Aware Pixel-Excitation (HAPE) module for adaptive multi-scale local feature extraction. During the global perception modeling, we devise an Efficient Transformer (ET) module streamlining the quadratic calculations associated with traditional Transformers. Moreover, a correlation-weighted Fusion (cwF) module selectively merges diverse feature representations, significantly enhancing predictive accuracy. HAFormer achieves high performance with minimal computational overhead and compact model size, achieving 74.2% mIoU on Cityscapes and 71.1% mIoU on CamVid test datasets, with frame rates of 105FPS and 118FPS on a single 2080Ti GPU. The source codes are available at https://github.com/XU-GITHUB-curry/HAFormer.
翻訳日:2024-07-12 11:33:49 公開日:2024-07-11
# 検出アルゴリズムを用いたミサイル検出・破壊ロボット

Missile detection and destruction robot using detection algorithm ( http://arxiv.org/abs/2407.07452v2 )

ライセンス: Link先を確認
Md Kamrul Siam, Shafayet Ahmed, Md Habibur Rahman, Amir Hossain Mollah, (参考訳) この研究は、バングラデシュでシステムを実装するための費用対効果の高いソリューションを見つけるために、世界の現在のミサイル検出技術とこれらの技術の分析に基づいている。 本論文は、電気光学センサーとパルスドップラーレーダーを用いたミサイル検出技術について考察する。 システムは標的ミサイルを検出するために作られています。 超音波ソナー、金属探知センサー、煙探知センサーの助けを借りて自動検出と破壊を行う。 このシステムは主に超音波ソナーセンサーをベースとしている。 トランスデューサ、送信機、受信機を備える。 Transducerはコントローラに接続されている。 アルゴリズムに従って物体を検出すると、その距離と角度が分かる。 また、他のアルゴリズムのシミュレーションを使うことで、システムがオブジェクトを破壊することができるかどうかを確認することもできる。

This research is based on the present missile detection technologies in the world and the analysis of these technologies to find a cost effective solution to implement the system in Bangladesh. The paper will give an idea of the missile detection technologies using the electro-optical sensor and the pulse doppler radar. The system is made to detect the target missile. Automatic detection and destruction with the help of ultrasonic sonar, a metal detector sensor, and a smoke detector sensor. The system is mainly based on an ultrasonic sonar sensor. It has a transducer, a transmitter, and a receiver. Transducer is connected with the connected with controller. When it detects an object by following the algorithm, it finds its distance and angle. It can also assure whether the system can destroy the object or not by using another algorithm's simulation.
翻訳日:2024-07-12 11:33:49 公開日:2024-07-11
# GLBench: 大規模言語モデルによるグラフの総合ベンチマーク

GLBench: A Comprehensive Benchmark for Graph with Large Language Models ( http://arxiv.org/abs/2407.07457v2 )

ライセンス: Link先を確認
Yuhan Li, Peisong Wang, Xiao Zhu, Aochuan Chen, Haiyun Jiang, Deng Cai, Victor Wai Kin Chan, Jia Li, (参考訳) 大規模言語モデル(LLM)の出現は、グラフとのインタラクション方法に革命をもたらし、GraphLLMと呼ばれる新しいパラダイムにつながった。 近年のGraphLLM手法の急速な発展にもかかわらず、一貫した実験プロトコルによるベンチマークが欠如しているため、この分野の進歩と理解はいまだに不明である。 このギャップを埋めるために、GLBenchを紹介します。これは、教師付きシナリオとゼロショットシナリオの両方でGraphLLMメソッドを評価するための、最初の包括的なベンチマークです。 GLBenchはグラフニューラルネットワークのような従来のベースラインとともに、GraphLLMメソッドのさまざまなカテゴリを公平かつ徹底的に評価する。 一貫性のあるデータ処理と分割戦略を備えた実世界のデータセットのコレクションに関する広範な実験を通じて、いくつかの重要な発見が明らかになった。 まず、GraphLLMメソッドは教師付き設定において従来のベースラインよりも優れており、LLM-as-enhancerは最も堅牢なパフォーマンスを示している。 しかし、予測子としてLLMを使うことは効果が低く、しばしば制御不能な出力問題を引き起こす。 また、現在のGraphLLMメソッドには明確なスケーリング法則は存在しないことに気付きました。 さらに、構造と意味論は効果的なゼロショット転送に不可欠であり、提案した単純なベースラインはゼロショットシナリオに適したモデルよりも優れている。 ベンチマークのデータとコードはhttps://github.com/NineAbyss/GLBenchで確認できる。

The emergence of large language models (LLMs) has revolutionized the way we interact with graphs, leading to a new paradigm called GraphLLM. Despite the rapid development of GraphLLM methods in recent years, the progress and understanding of this field remain unclear due to the lack of a benchmark with consistent experimental protocols. To bridge this gap, we introduce GLBench, the first comprehensive benchmark for evaluating GraphLLM methods in both supervised and zero-shot scenarios. GLBench provides a fair and thorough evaluation of different categories of GraphLLM methods, along with traditional baselines such as graph neural networks. Through extensive experiments on a collection of real-world datasets with consistent data processing and splitting strategies, we have uncovered several key findings. Firstly, GraphLLM methods outperform traditional baselines in supervised settings, with LLM-as-enhancers showing the most robust performance. However, using LLMs as predictors is less effective and often leads to uncontrollable output issues. We also notice that no clear scaling laws exist for current GraphLLM methods. In addition, both structures and semantics are crucial for effective zero-shot transfer, and our proposed simple baseline can even outperform several models tailored for zero-shot scenarios. The data and code of the benchmark can be found at https://github.com/NineAbyss/GLBench.
翻訳日:2024-07-12 11:33:49 公開日:2024-07-11
# 先進・先進学習ネットワークを用いた地中短波赤外画像再構成

Metasurface-based Snapshot Shortwave-Infrared Hyperspectral Image Reconstruction with Inter and Intra Prior Learning Network ( http://arxiv.org/abs/2407.07503v2 )

ライセンス: Link先を確認
Linqiang Li, Jinglei Hao, Yongqiang Zhao, Pan Liu, Haofang Yan, Ziqin Zhang, Seong G. Kong, (参考訳) ショートウェーブ赤外線(SWIR)スペクトル情報(1 {\mu}mから2.5{\mu}m)は、シーン情報を取得する際の従来のカラーカメラの限界を破り、多くの分野で利用されてきた。 しかし、従来のSWIRハイパースペクトルイメージングシステムは、粗大な設定と低取得速度のため、課題に直面している。 本研究では,これらのフィルタの相関係数を最小化するために,準曲面フィルタとそれに対応するフィルタ選択法に基づくスナップショットSWIRハイパースペクトルイメージングシステムを導入し,小型化とスナップショットイメージングの利点を生かした。 本稿では,先行学習と段階間情報相互作用のギャップを埋める,高品質なSWIRハイパースペクトル画像再構成を実現するための,新たな先行学習内展開フレームワークを提案する。 また,デコーダの詳細な情報損失を防止するため,マルチスケールエンコーダの特徴の伝達コンテキスト相関を適応的に行うための適応的特徴伝達機構を設計する。 実験の結果,提案手法は既存の手法よりも高速かつ優れた性能でHSIを再構築可能であることが示された。

Shortwave-infrared(SWIR) spectral information,ranging from 1 {\mu}m to 2.5{\mu}m, breaks the limitations of traditional color cameras in acquiring scene information and has been used in many fields. However, conventional SWIR hyperspectral imaging systems face challenges due to their bulky setups and low acquisition speed. In this work, we introduce a snapshot SWIR hyperspectral imaging system based on a metasurface filter and a corresponding filter selection method to achieve the lowest correlation coefficient among these filters.This systemhas the advantages of small size and snapshot imaging. We propose a novel inter and intra prior learning unfolding framework proposed to achieve high-quality SWIR hyperspectral image reconstruction, which bridges the gap between prior learning and cross-stage information interaction. We also design an adaptive feature transfer mechanism to adaptively the transfer contextual correlation of multi-scale encoder features to prevent detailed information loss in the decoder. Experiment results demonstrate that our method can reconstruct HSI with high speed and superior performance over existing methods.
翻訳日:2024-07-12 11:33:49 公開日:2024-07-11
# InstructLayout: セマンティックグラフを用いたインストラクション駆動2Dおよび3Dレイアウト合成

InstructLayout: Instruction-Driven 2D and 3D Layout Synthesis with Semantic Graph Prior ( http://arxiv.org/abs/2407.07580v2 )

ライセンス: Link先を確認
Chenguo Lin, Yuchen Lin, Panwang Pan, Xuanyang Zhang, Yadong Mu, (参考訳) 自然言語命令を補完することは、2Dと3Dのレイアウト合成システムにとって魅力的な特性である。 既存の手法は、オブジェクトの関節分布を暗黙的にモデル化し、オブジェクトの関係を表現し、生成者の制御可能性を妨げる。 InstructLayoutは、セマンティックグラフとレイアウトデコーダを統合し、2次元および3次元レイアウト合成の制御性と忠実性を改善する新しい生成フレームワークである。 提案したセマンティックグラフは,レイアウトの出現とオブジェクトの分布を同時に学習し,各下流タスクの汎用性をゼロショットで示す。 テキスト駆動2Dと3Dシーン合成のベンチマークを容易にするため,我々は,大規模言語とマルチモーダルモデルを用いて,公開インターネットリソースから2つの高品質なレイアウト命令ペアのデータセットをキュレートした。 実験結果から,提案手法は2次元および3次元のレイアウト合成作業において,既存の最先端手法よりも優れた性能を示した。 徹底的なアブレーション研究により、重要な設計要素の有効性が確認された。

Comprehending natural language instructions is a charming property for both 2D and 3D layout synthesis systems. Existing methods implicitly model object joint distributions and express object relations, hindering generation's controllability. We introduce InstructLayout, a novel generative framework that integrates a semantic graph prior and a layout decoder to improve controllability and fidelity for 2D and 3D layout synthesis. The proposed semantic graph prior learns layout appearances and object distributions simultaneously, demonstrating versatility across various downstream tasks in a zero-shot manner. To facilitate the benchmarking for text-driven 2D and 3D scene synthesis, we respectively curate two high-quality datasets of layout-instruction pairs from public Internet resources with large language and multimodal models. Extensive experimental results reveal that the proposed method outperforms existing state-of-the-art approaches by a large margin in both 2D and 3D layout synthesis tasks. Thorough ablation studies confirm the efficacy of crucial design components.
翻訳日:2024-07-12 11:33:49 公開日:2024-07-11
# モバイルデバイスにおける創傷セグメント化のための軽量モデルの早期探索

Early Explorations of Lightweight Models for Wound Segmentation on Mobile Devices ( http://arxiv.org/abs/2407.07605v2 )

ライセンス: Link先を確認
Vanessa Borst, Timo Dittus, Konstantin Müller, Samuel Kounev, (参考訳) 高齢化は、高齢者の慢性的な傷の増加など、医療に多くの課題をもたらす。 写真ドキュメンテーションに基づくセラピストによる創傷評価への現在のアプローチは主観的であり、スマートフォン写真からコンピュータ支援による創傷認識の必要性を強調している。 これは客観的かつ便利な治療モニタリングを提供するが、いつでも自宅から患者にアクセスできる。 しかし, 移動体画像セグメント化の研究にもかかわらず, 移動体創傷セグメント化に焦点が当てられていない。 このギャップに対処するため,スマートフォンによる創傷セグメント化に適した3つの軽量アーキテクチャについて検討を行った。 公開データセットとUNetをベースラインとして使用することで、ENetとTopFormerの両方、さらに大きなUNeXtの亜種がUNetに匹敵するパフォーマンスを示した結果が期待できる。 さらに,本手法をスマートフォンアプリに展開し,傷痕と傷痕を識別するTopFormerの有効性を示した。 本研究は,移動体創傷セグメント化のためのトランスフォーマーモデルの可能性を明らかにするものであるが,今後の研究はマスクの輪郭をさらに改善することを目的としている。

The aging population poses numerous challenges to healthcare, including the increase in chronic wounds in the elderly. The current approach to wound assessment by therapists based on photographic documentation is subjective, highlighting the need for computer-aided wound recognition from smartphone photos. This offers objective and convenient therapy monitoring, while being accessible to patients from their home at any time. However, despite research in mobile image segmentation, there is a lack of focus on mobile wound segmentation. To address this gap, we conduct initial research on three lightweight architectures to investigate their suitability for smartphone-based wound segmentation. Using public datasets and UNet as a baseline, our results are promising, with both ENet and TopFormer, as well as the larger UNeXt variant, showing comparable performance to UNet. Furthermore, we deploy the models into a smartphone app for visual assessment of live segmentation, where results demonstrate the effectiveness of TopFormer in distinguishing wounds from wound-coloured objects. While our study highlights the potential of transformer models for mobile wound segmentation, future work should aim to further improve the mask contours.
翻訳日:2024-07-12 11:33:49 公開日:2024-07-11
# プロンプトアライメントによる候補ラベルの調整型ビジョンランゲージモデル

Tuning Vision-Language Models with Candidate Labels by Prompt Alignment ( http://arxiv.org/abs/2407.07638v2 )

ライセンス: Link先を確認
Zhifang Zhang, Beibei Li, (参考訳) 視覚言語モデル(VLM)は、画像テキストペアの大規模なトレーニングデータセットから高品質な表現を学習することができる。 プロンプト学習は、下流タスクに適応するためにVLMを微調整する一般的なアプローチである。 十分な性能にもかかわらず、迅速な学習の大きな制限はラベル付きデータの要求である。 現実のシナリオでは、データのプライバシや感度の問題のため、真のラベルではなく、候補ラベル(真のラベルが含まれている場所)のみを取得することができます。 本稿では,VLMの候補ラベルを用いた初等学習について述べる。 提案手法は,他の微調整手法よりも高速学習が有利であることを実証的に示す。 それでも、ラベルのあいまいさが大きくなると、その性能は低下する。 その堅牢性を改善するために,VLMの事前知識を活用して学習プロセスを学習ラベルでガイドする,シンプルで効果的なフレームワークを提案する。 具体的には、学習可能なプロンプトと手作りされたプロンプトの両方で予測された混合クラス後部とモデル出力を一致させることにより、候補ラベルを曖昧にする。 さらに,本フレームワークは,対象ラベルを用いて学習し,さらなる性能向上を図るための,既成のトレーニング目標も備えることができる。 大規模な実験により,提案手法の有効性が実証された。

Vision-language models (VLMs) can learn high-quality representations from a large-scale training dataset of image-text pairs. Prompt learning is a popular approach to fine-tuning VLM to adapt them to downstream tasks. Despite the satisfying performance, a major limitation of prompt learning is the demand for labelled data. In real-world scenarios, we may only obtain candidate labels (where the true label is included) instead of the true labels due to data privacy or sensitivity issues. In this paper, we provide the first study on prompt learning with candidate labels for VLMs. We empirically demonstrate that prompt learning is more advantageous than other fine-tuning methods, for handling candidate labels. Nonetheless, its performance drops when the label ambiguity increases. In order to improve its robustness, we propose a simple yet effective framework that better leverages the prior knowledge of VLMs to guide the learning process with candidate labels. Specifically, our framework disambiguates candidate labels by aligning the model output with the mixed class posterior jointly predicted by both the learnable and the handcrafted prompt. Besides, our framework can be equipped with various off-the-shelf training objectives for learning with candidate labels to further improve their performance. Extensive experiments demonstrate the effectiveness of our proposed framework.
翻訳日:2024-07-12 11:33:49 公開日:2024-07-11
# SaMoye: 特徴距離と合成に基づくゼロショット歌声変換

SaMoye: Zero-shot Singing Voice Conversion Based on Feature Disentanglement and Synthesis ( http://arxiv.org/abs/2407.07728v2 )

ライセンス: Link先を確認
Zihao Wang, Le Ma, Yan Liu, Kejun Zhang, (参考訳) 歌唱音声変換(SVC)は、歌唱者の声をオリジナルコンテンツを保持しつつ、特定の楽曲中の声を他の歌手に変換することを目的としている。 そこで我々は,ゼロショット多対多歌唱音声変換を実現するために,SaMoyeと名づけたエンドツーエンド機能不整合モデルを提案する。 SaMoyeは、歌声の特徴をそれぞれコンテンツ機能、音色機能、ピッチ機能に分解する。 コンテンツ機能はGPTモデルを用いて拡張され、歌詞の音素と交差予測を行う。 SaMoyeは、音色の特徴をターゲットの歌手に置き換えることで、変換された音声で音楽を生成することができる。 また、ゼロショット性能を保証するために、非並列な大規模データセットを構築します。 データセットは、少なくとも10,000人の歌手を含む1500kの純粋なボーカルクリップで構成されている。

Singing voice conversion (SVC) aims to convert a singer's voice in a given music piece to another singer while keeping the original content. We propose an end-to-end feature disentanglement-based model, which we named SaMoye, to enable zero-shot many-to-many singing voice conversion. SaMoye disentangles the features of the singing voice into content features, timbre features, and pitch features respectively. The content features are enhanced using a GPT-based model to perform cross-prediction with the phoneme of the lyrics. SaMoye can generate the music with converted voice by replacing the timbre features with the target singer. We also establish an unparalleled large-scale dataset to guarantee zero-shot performance. The dataset consists of 1500k pure singing vocal clips containing at least 10,000 singers.
翻訳日:2024-07-12 11:33:49 公開日:2024-07-11
# グリッドベースのゲームコンペティションによる大規模言語モデルの評価 - 拡張可能なLLMベンチマークとリーダボード

Evaluating Large Language Models with Grid-Based Game Competitions: An Extensible LLM Benchmark and Leaderboard ( http://arxiv.org/abs/2407.07796v2 )

ライセンス: Link先を確認
Oguzhan Topsakal, Colby Jacob Edell, Jackson Bailey Harper, (参考訳) 我々は,Tic-Tac-Toe,Connect Four,Gomokuなどのグリッドベースのゲームを通じて,大規模言語モデル(LLM)の新たな拡張可能なベンチマークを導入する。 GitHubで公開されているオープンソースのゲームシミュレーションコードにより、LLMは、リーダボードランキングとさらなる分析のために、JSON、CSV、TXT、PNGフォーマットで詳細なデータファイルと競合し、生成することができる。 本稿では,Orthropic の Claude 3.5 Sonnet と Claude 3 Sonnet ,Google の Gemini 1.5 Pro と Gemini 1.5 Flash ,OpenAI の GPT-4 Turbo と GPT-4o ,Meta の Llama3-70B などの主要な LLM のゲーム結果を紹介する。 また、他のLSMからの結果の提出を奨励します。 本研究は,3種類のゲームに対して,リスト,イラスト,イメージの3つの異なるプロンプト型を用いて,2,310試合(それぞれ7 LLMとランダムプレイヤーの5セッション)をシミュレーションした。 その結果,異なるゲームやプロンプトタイプ間でのLLM性能の有意な変動が明らかとなり,勝敗率や失格率,機会分析の欠如,無効な移動解析が報告された。 リーダボードと結果マトリックスの詳細は、GitHubでオープンアクセスデータとして公開されている。 本研究は,特定の訓練を受けていないゲームにおけるLLMの能力の理解を深め,ルール理解と戦略的思考の評価に役立てるものである。 AGI(Artificial General Intelligence)への道のりとして、この研究は、複雑な意思決定シナリオにおける将来的な実用性を探究し、戦略的な思考能力を照らし、ゲームベースのフレームワークにおけるLSMの限界についてさらなる調査を行うための指針を提供するための基礎となる。

We introduce a novel and extensible benchmark for large language models (LLMs) through grid-based games such as Tic-Tac-Toe, Connect Four, and Gomoku. The open-source game simulation code, available on GitHub, allows LLMs to compete and generates detailed data files in JSON, CSV, TXT, and PNG formats for leaderboard rankings and further analysis. We present the results of games among leading LLMs, including Claude 3.5 Sonnet and Claude 3 Sonnet by Anthropic, Gemini 1.5 Pro and Gemini 1.5 Flash by Google, GPT-4 Turbo and GPT-4o by OpenAI, and Llama3-70B by Meta. We also encourage submissions of results from other LLMs. In total, we simulated 2,310 matches (5 sessions for each pair among 7 LLMs and a random player) across three types of games, using three distinct prompt types: list, illustration, and image. The results revealed significant variations in LLM performance across different games and prompt types, with analysis covering win and disqualification rates, missed opportunity analysis, and invalid move analysis. The details of the leaderboard and result matrix data are available as open-access data on GitHub. This study enhances our understanding of LLMs' capabilities in playing games they were not specifically trained for, helping to assess their rule comprehension and strategic thinking. On the path to Artificial General Intelligence (AGI), this study lays the groundwork for future exploration into their utility in complex decision-making scenarios, illuminating their strategic thinking abilities and offering directions for further inquiry into the limits of LLMs within game-based frameworks.
翻訳日:2024-07-12 11:33:49 公開日:2024-07-11
# AVCap:字幕化のためのテキストトークンとしてオーディオ・ビジュアル機能を活用する

AVCap: Leveraging Audio-Visual Features as Text Tokens for Captioning ( http://arxiv.org/abs/2407.07801v2 )

ライセンス: Link先を確認
Jongsuk Kim, Jiwon Shin, Junmo Kim, (参考訳) 近年、表現学習と言語モデルの進歩により、オートマチック・キャプション(AC)は新たな高みに発展し、人間レベルの記述の生成が可能になった。 これらの進歩を生かして、オーディオ・ビジュアル・キャプションに適用可能な、シンプルながら強力なベースラインアプローチであるオーディオ・ビジュアル・キャプション・フレームワークであるAVCapを提案する。 AVCapは音声視覚機能をテキストトークンとして利用しており、性能だけでなく、モデルの拡張性と拡張性にも多くの利点がある。 AVCapは、最適なオーディオ-視覚エンコーダアーキテクチャの探索、生成されたテキストの特性に応じた事前訓練されたモデルの適応、キャプションにおけるモダリティ融合の有効性の調査の3つの重要な側面に基づいて設計されている。 我々のメソッドは、すべてのメトリクスで既存の音声-視覚キャプションメソッドよりも優れており、コードはhttps://github.com/JongSuk1/AVCapで利用可能である。

In recent years, advancements in representation learning and language models have propelled Automated Captioning (AC) to new heights, enabling the generation of human-level descriptions. Leveraging these advancements, we propose AVCap, an Audio-Visual Captioning framework, a simple yet powerful baseline approach applicable to audio-visual captioning. AVCap utilizes audio-visual features as text tokens, which has many advantages not only in performance but also in the extensibility and scalability of the model. AVCap is designed around three pivotal dimensions: the exploration of optimal audio-visual encoder architectures, the adaptation of pre-trained models according to the characteristics of generated text, and the investigation into the efficacy of modality fusion in captioning. Our method outperforms existing audio-visual captioning methods across all metrics and the code is available on https://github.com/JongSuk1/AVCap
翻訳日:2024-07-12 11:33:49 公開日:2024-07-11
# パッチサイズの進行的成長:資源効率のよいカリキュラム学習による高密度予測課題

Progressive Growing of Patch Size: Resource-Efficient Curriculum Learning for Dense Prediction Tasks ( http://arxiv.org/abs/2407.07853v2 )

ライセンス: Link先を確認
Stefan M. Fischer, Lina Felsner, Richard Osuala, Johannes Kiechle, Daniel M. Lang, Jan C. Peeken, Julia A. Schnabel, (参考訳) 本研究では,資源効率の高い暗黙的なカリキュラム学習手法であるPatch Sizeのプログレッシブグロース(Progressive Growing of Patch Size)を紹介する。 我々のカリキュラムのアプローチは、モデルトレーニング中にパッチサイズを拡大することで定義され、タスクの難しさが徐々に増大する。 我々は,カリキュラムをnnU-Netフレームワークに統合し,メディカルセグメンテーション宣言の10タスクの方法論を評価した。 提案手法により,従来の定型パッチサイズトレーニングと比較して,ネットワークトレーニングのランタイム,計算コスト,CO2排出量を大幅に削減できる。 実験では,カリキュラムのアプローチにより収束性が改善された。 私たちは10のMSDタスクのうち7つのDice Scoreについて、パッチサイズを一定にトレーニングした標準的なnnU-Netトレーニングよりも優れていますが、オリジナルのトレーニングランタイムの約50%しか使用していません。 私たちの知識を最大限に活用するために、我々のプログレッシブグロース・オブ・パッチサイズは、コンピュータビジョンの分野におけるパッチサイズという形でサンプル長のカリキュラムを成功させた最初の例です。 私たちのコードはhttps://github.com/compai-lab/2024-miccai-fischer.comで公開されています。

In this work, we introduce Progressive Growing of Patch Size, a resource-efficient implicit curriculum learning approach for dense prediction tasks. Our curriculum approach is defined by growing the patch size during model training, which gradually increases the task's difficulty. We integrated our curriculum into the nnU-Net framework and evaluated the methodology on all 10 tasks of the Medical Segmentation Decathlon. With our approach, we are able to substantially reduce runtime, computational costs, and CO2 emissions of network training compared to classical constant patch size training. In our experiments, the curriculum approach resulted in improved convergence. We are able to outperform standard nnU-Net training, which is trained with constant patch size, in terms of Dice Score on 7 out of 10 MSD tasks while only spending roughly 50% of the original training runtime. To the best of our knowledge, our Progressive Growing of Patch Size is the first successful employment of a sample-length curriculum in the form of patch size in the field of computer vision. Our code is publicly available at https://github.com/compai-lab/2024-miccai-fischer.
翻訳日:2024-07-12 11:33:49 公開日:2024-07-11