このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240823となっている論文です。

PDF登録状況(公開日: 20240823)

TitleAuthorsAbstract論文公表日・翻訳日
# 高次元トポロジー保存特性選択のためのIVFSアルゴリズムの再現

Reproduction of IVFS algorithm for high-dimensional topology preservation feature selection ( http://arxiv.org/abs/2409.12195v1 )

ライセンス: Link先を確認
Zihan Wang, (参考訳) 特徴選択は高次元データを扱う上で重要な手法である。 教師なしのシナリオでは、多くの一般的なアルゴリズムが元のデータ構造を保存することに重点を置いている。 本稿では,AAAI 2020で導入されたIVFSアルゴリズムを再現する。 本稿では,IVFSの数学的基礎を体系的に整理し,その有効性を検証する。 その結果、IVFSは多くのデータセットにおいてSPECとMCFSよりも優れており、収束と安定性の問題が持続していることがわかった。

Feature selection is a crucial technique for handling high-dimensional data. In unsupervised scenarios, many popular algorithms focus on preserving the original data structure. In this paper, we reproduce the IVFS algorithm introduced in AAAI 2020, which is inspired by the random subset method and preserves data similarity by maintaining topological structure. We systematically organize the mathematical foundations of IVFS and validate its effectiveness through numerical experiments similar to those in the original paper. The results demonstrate that IVFS outperforms SPEC and MCFS on most datasets, although issues with its convergence and stability persist.
翻訳日:2024-11-07 19:26:16 公開日:2024-08-23
# 限定ラベル付きサンプルを用いたマルチモーダル感情認識のためのコントラスト学習と自己学習の活用

Leveraging Contrastive Learning and Self-Training for Multimodal Emotion Recognition with Limited Labeled Samples ( http://arxiv.org/abs/2409.04447v1 )

ライセンス: Link先を確認
Qi Fan, Yutong Li, Yi Xin, Xinyu Cheng, Guanglai Gao, Miao Ma, (参考訳) マルチモーダル感情認識の課題であるMER2024は、音声、言語、視覚信号を用いた感情の認識に焦点を当てている。 本稿では,感情認識における限定的な注釈付きデータの問題に対処するセミ・スーパーバイズド・ラーニング・サブチャレンジ(MER2024-SEMI)について提案する。 まず、クラス不均衡に対処するために、オーバーサンプリング戦略を採用します。 次に, 3モーダル入力データを用いたMR-CCL(Modality representation combinatorial contrastive learning)フレームワークを提案する。 第3に、トレーニングセットを拡張するための自己学習アプローチについて検討する。 最後に,重み付きソフト投票戦略により,予測ロバスト性を向上する。 提案手法はMER2024-SEMIチャレンジで有効であることが確認され, 平均Fスコア88.25%, リーダーボード6位となった。 私たちのプロジェクトはhttps://github.com/WooyoohL/MER2024-SEMIで公開されています。

The Multimodal Emotion Recognition challenge MER2024 focuses on recognizing emotions using audio, language, and visual signals. In this paper, we present our submission solutions for the Semi-Supervised Learning Sub-Challenge (MER2024-SEMI), which tackles the issue of limited annotated data in emotion recognition. Firstly, to address the class imbalance, we adopt an oversampling strategy. Secondly, we propose a modality representation combinatorial contrastive learning (MR-CCL) framework on the trimodal input data to establish robust initial models. Thirdly, we explore a self-training approach to expand the training set. Finally, we enhance prediction robustness through a multi-classifier weighted soft voting strategy. Our proposed method is validated to be effective on the MER2024-SEMI Challenge, achieving a weighted average F-score of 88.25% and ranking 6th on the leaderboard. Our project is available at https://github.com/WooyoohL/MER2024-SEMI.
翻訳日:2024-09-15 05:31:27 公開日:2024-08-23
# SpecGaussian with Latent Features: A high-quality Modeling of the View-dependent appearance of the 3D Gaussian Splatting (特集 New Trends)

SpecGaussian with Latent Features: A High-quality Modeling of the View-dependent Appearance for 3D Gaussian Splatting ( http://arxiv.org/abs/2409.05868v1 )

ライセンス: Link先を確認
Zhiru Wang, Shiyun Xie, Chengwei Pan, Guoping Wang, (参考訳) 近年, 3D Gaussian Splatting (3D-GS) 法は, 高品質なレンダリング性能を確保しつつ, リアルタイムレンダリングを実現し, 新規なビュー合成において大きな成功を収めている。 しかし、この手法は、鏡面反射のモデル化や異方性外見成分の扱い、特に複雑な照明条件下での視野依存色を扱う際の課題に直面している。 さらに、3D-GSは球面調和を使って色表現を学習し、複雑なシーンを表現する能力に制限がある。 これらの課題を克服するために、各3次元ガウス内において普遍的な潜在神経記述子を利用するアプローチであるLantent-SpecGSを導入する。 これにより、外観や幾何学など、より効果的な3D特徴場の表現が可能になる。 さらに、2つの並列CNNは、特徴写像を拡散色と特異色に分離してデコーダするように設計されている。 視点に依存するマスクが学習され、これらの2色をマージし、最終的なレンダリング画像が生成される。 実験結果から,本手法は新規な視点合成における競争性能を向上し,複雑なシナリオを鏡面反射で処理する3D-GSの能力を拡張できることが示唆された。

Recently, the 3D Gaussian Splatting (3D-GS) method has achieved great success in novel view synthesis, providing real-time rendering while ensuring high-quality rendering results. However, this method faces challenges in modeling specular reflections and handling anisotropic appearance components, especially in dealing with view-dependent color under complex lighting conditions. Additionally, 3D-GS uses spherical harmonic to learn the color representation, which has limited ability to represent complex scenes. To overcome these challenges, we introduce Lantent-SpecGS, an approach that utilizes a universal latent neural descriptor within each 3D Gaussian. This enables a more effective representation of 3D feature fields, including appearance and geometry. Moreover, two parallel CNNs are designed to decoder the splatting feature maps into diffuse color and specular color separately. A mask that depends on the viewpoint is learned to merge these two colors, resulting in the final rendered image. Experimental results demonstrate that our method obtains competitive performance in novel view synthesis and extends the ability of 3D-GS to handle intricate scenarios with specular reflections.
翻訳日:2024-09-15 05:31:27 公開日:2024-08-23
# プロセスマイニングを使ってディジタルサービスデリバリを改善する

Using Process Mining to Improve Digital Service Delivery ( http://arxiv.org/abs/2409.05869v1 )

ライセンス: Link先を確認
Jacques Trottier, William Van Woensel, Xiaoyang Wang, Kavya Mallur, Najah El-Gharib, Daniel Amyot, (参考訳) カナダ政府における人事安全検査のためのプロセスマイニング(PM)の事例研究について述べる。 私たちは顧客(プロセス時間)と組織(コスト)の観点から考えます。 さらに,ほとんどのケーススタディとは対照的に,介入前分析では初期ボトルネックが指摘され,介入後の分析では介入の影響と改善のための残りの領域が特定された。 PM手法を用いることで、しばしば例外的なシナリオ(修正を要するアプリケーションなど)、時間集約ループ(タスクを忘れる従業員など)、リソース割り当て問題(非セキュリティ担当者の関与など)を特定した。 その後のプロセス改善の介入は、フレキシブルなローコードデジタルプラットフォームを使用して実施され、セキュリティブリーフィング時間を約7日から46時間に短縮し、プロセス全体の時間を平均31日から26日に短縮した。 コストの観点からは、採用マネージャとセキュリティスクリーニングオフィサーの関与が大幅に削減された。 これらの結果は、PMがパブリックサービスデリバリを改善するために、より広範なデジタルトランスフォーメーションフレームワークの一部になる方法を示している。 これらの介入の成功は、その後の政府のPMプロジェクトへの動機付けとなり、現在開発中のPM方法論に刺激を与え、政府のような大規模な組織的文脈での使用を可能にした。

We present a case study of Process Mining (PM) for personnel security screening in the Canadian government. We consider customer (process time) and organizational (cost) perspectives. Furthermore, in contrast to most published case studies, we assess the full process improvement lifecycle: pre-intervention analyses pointed out initial bottlenecks, and post-intervention analyses identified the intervention impact and remaining areas for improvement. Using PM techniques, we identified frequent exceptional scenarios (e.g., applications requiring amendment), time-intensive loops (e.g., employees forgetting tasks), and resource allocation issues (e.g., involvement of non-security personnel). Subsequent process improvement interventions, implemented using a flexible low-code digital platform, reduced security briefing times from around 7 days to 46 hours, and overall process time from around 31 days to 26 days, on average. From a cost perspective, the involvement of hiring managers and security screening officers was significantly reduced. These results demonstrate how PM can become part of a broader digital transformation framework to improve public service delivery. The success of these interventions motivated subsequent government PM projects, and inspired a PM methodology, currently under development, for use in large organizational contexts such as governments.
翻訳日:2024-09-15 05:31:27 公開日:2024-08-23
# 離散サンプリング作業空間上のリーチ動作に対する多機能補償運動解析

Multi-feature Compensatory Motion Analysis for Reaching Motions Over a Discretely Sampled Workspace ( http://arxiv.org/abs/2409.05871v1 )

ライセンス: Link先を確認
Qihan Yang, Yuri Gloumakov, Adam J. Spiers, (参考訳) 上肢補綴における手首などの機能的腕関節の欠如は、ユーザの日常活動における補償運動を引き起こす。 様々なタスクプロトコルや評価指標について,これまで補償動作が研究されてきた。 しかし, 従来のプロトコルにおける移動目標の空間的位置は標準化されておらず, 研究間で比較不能であり, 評価基準は初歩的であった。 この研究は、個別にサンプリングされた7*7 2Dグリッドに到達した被験者の最終ポーズにおける補償運動を分析した。 当科では, 腕関節の拘束により, 上顎義肢を模擬する制動装置を装着した。 合計1372のポーズが分析され、補償指標が厳格な報酬水準を示すために提案された。 この指数は、共同空間位置解析、共同角度解析、分離性解析、機械学習(クラスタリング)分析を組み合わせたものである。 個別解析結果と最終補償指数を,ワークスペースの空間的レイアウトに対応するヒートマップ形式で提示し,補償運動の空間的依存性を明らかにした。 以上の結果より, 左右方向の左右方向の左右方向の左右方向の左右方向の左右方向の左右方向の左右方向の左右方向の左右方向の左右方向の上下方向の上下方向の台座方向の台座方向の動きが, 左右方向の台座方向の台座方向の台座方向と左右方向の台座方向の台座方向の台座方向の上下方向の台座方向の動きが示唆された。 このような結果は, 臨床リハビリテーション, 職業療法, 補綴的評価における運動選択を誘導し, 残肢痛や過剰使用症候群の回避に役立つ可能性がある。

The absence of functional arm joints, such as the wrist, in upper extremity prostheses leads to compensatory motions in the users' daily activities. Compensatory motions have been previously studied for varying task protocols and evaluation metrics. However, the movement targets' spatial locations in previous protocols were not standardised and incomparable between studies, and the evaluation metrics were rudimentary. This work analysed compensatory motions in the final pose of subjects reaching across a discretely sampled 7*7 2D grid of targets under unbraced (normative) and braced (compensatory) conditions. For the braced condition, a bracing system was applied to simulate a transradial prosthetic limb by restricting participants' wrist joints. A total of 1372 reaching poses were analysed, and a Compensation Index was proposed to indicate the severity level of compensation. This index combined joint spatial location analysis, joint angle analysis, separability analysis, and machine learning (clustering) analysis. The individual analysis results and the final Compensation Index were presented in heatmap format to correspond to the spatial layout of the workspace, revealing the spatial dependency of compensatory motions. The results indicate that compensatory motions occur mainly in a right trapezoid region in the upper left area and a vertical trapezoid region in the middle left area for right-handed subjects reaching horizontally and vertically. Such results might guide motion selection in clinical rehabilitation, occupational therapy, and prosthetic evaluation to help avoid residual limb pain and overuse syndromes.
翻訳日:2024-09-15 05:31:27 公開日:2024-08-23
# CSRec: シークエンシャルレコメンデーションを因果的視点から再考

CSRec: Rethinking Sequential Recommendation from A Causal Perspective ( http://arxiv.org/abs/2409.05872v1 )

ライセンス: Link先を確認
Xiaoyu Liu, Jiaxin Yuan, Yuhang Zhou, Jingling Li, Furong Huang, Wei Ai, (参考訳) シーケンシャルなレコメンデータシステム(RecSys)の本質は、ユーザが意思決定を行う方法を理解することです。 既存のアプローチのほとんどは、ユーザの履歴購入履歴に基づいて、タスクをシーケンシャルな予測とみなしている。 ユーザの自然な嗜好を捉えるのに効果的であるが、この定式化は実際のレコメンデーションシナリオを正確にモデル化するには不十分である。 さらに、RecSys自体がユーザの判断に与える影響は、適切に分離され、定量的に分析されていない。 これらの課題に対処するため,CSRec(Causal Sequential Recommendation)と呼ばれるシーケンシャルレコメンデーションの新たな定式化を提案する。 シーケンス内の次の項目を予測する代わりに、CSRecは、推奨項目がシーケンシャルなコンテキスト内で受け入れられる確率を予測し、現在の決定をバックトラックすることを目指している。 批判的に、CSRecはユーザーの最終決定に影響を及ぼす様々な要因、特にレコメンダシステム自体の影響を分離し、レコメンダシステムの設計のための新たな道を開く。 CSRecは、既存の方法論にシームレスに統合できる。 合成と実世界の両方のデータセットに対する実験的評価により、提案手法は最先端のベースラインにおいて大幅に改善されることが示された。

The essence of sequential recommender systems (RecSys) lies in understanding how users make decisions. Most existing approaches frame the task as sequential prediction based on users' historical purchase records. While effective in capturing users' natural preferences, this formulation falls short in accurately modeling actual recommendation scenarios, particularly in accounting for how unsuccessful recommendations influence future purchases. Furthermore, the impact of the RecSys itself on users' decisions has not been appropriately isolated and quantitatively analyzed. To address these challenges, we propose a novel formulation of sequential recommendation, termed Causal Sequential Recommendation (CSRec). Instead of predicting the next item in the sequence, CSRec aims to predict the probability of a recommended item's acceptance within a sequential context and backtrack how current decisions are made. Critically, CSRec facilitates the isolation of various factors that affect users' final decisions, especially the influence of the recommender system itself, thereby opening new avenues for the design of recommender systems. CSRec can be seamlessly integrated into existing methodologies. Experimental evaluations on both synthetic and real-world datasets demonstrate that the proposed implementation significantly improves upon state-of-the-art baselines.
翻訳日:2024-09-15 05:31:27 公開日:2024-08-23
# UXのためのPhrasing: 計算言語学と創造分析による情報エンゲージメントの強化

Phrasing for UX: Enhancing Information Engagement through Computational Linguistics and Creative Analytics ( http://arxiv.org/abs/2409.00064v1 )

ライセンス: Link先を確認
Nimrod Dvir, (参考訳) 本研究では,デジタルプラットフォーム上でのテキスト特徴と情報エンゲージメント(IE)の関係について検討する。 計算言語学と分析がユーザインタラクションに与える影響を強調します。 READモデルは、エンゲージメントレベルを予測する代表性、使いやすさ、影響、分散といった重要な予測要素を定量化するために導入された。 モデルの有効性はABテストとランダム化試験を通じて検証され、参加者の強い予測性能(精度:0.94)、知覚(精度:0.85)、忍耐(精度:0.81)、全体的なIE(精度:0.97)を示す。 参加メトリクスは強いが、知覚と忍耐力は若干低いリコールとF1スコアを示し、いくつかの課題を示している。 この研究は、READモデルの洞察に基づいてテキストを変更することが、大幅な改善をもたらすことを示した。 例えば、代表性の向上と肯定的な影響は、選択率を11%向上させ、評価平均を3.98から4.46に引き上げ、保持率を11%向上させる。 これらの知見は、IEにおける言語的要素の重要性を強調し、デジタルテキストのエンゲージメントを高めるためのフレームワークを提供する。 この研究は、教育、健康、メディアといった分野に適用可能な実践的な戦略を提供する。

This study explores the relationship between textual features and Information Engagement (IE) on digital platforms. It highlights the impact of computational linguistics and analytics on user interaction. The READ model is introduced to quantify key predictors like representativeness, ease of use, affect, and distribution, which forecast engagement levels. The model's effectiveness is validated through AB testing and randomized trials, showing strong predictive performance in participation (accuracy: 0.94), perception (accuracy: 0.85), perseverance (accuracy: 0.81), and overall IE (accuracy: 0.97). While participation metrics are strong, perception and perseverance show slightly lower recall and F1-scores, indicating some challenges. The study demonstrates that modifying text based on the READ model's insights leads to significant improvements. For example, increasing representativeness and positive affect boosts selection rates by 11 percent, raises evaluation averages from 3.98 to 4.46, and improves retention rates by 11 percent. These findings highlight the importance of linguistic factors in IE, providing a framework for enhancing digital text engagement. The research offers practical strategies applicable to fields like education, health, and media.
翻訳日:2024-09-08 15:31:02 公開日:2024-08-23
# 建物におけるLCAとエネルギー効率--20年以上の研究を振り返って

LCA and energy efficiency in buildings: mapping more than twenty years of research ( http://arxiv.org/abs/2409.00065v1 )

ライセンス: Link先を確認
F. Asdrubali, A. Fronzetti Colladon, L. Segneri, D. M. Gandola, (参考訳) LCA (Research on Life Cycle Assessment) は、建築材料や部品の分析から構造全体の包括的評価に至るまで、様々な分野で実施されている。 しかし、既存の文献のレビューでは、この分野での研究の総合的な概観が得られず、今後の調査の明確な指針は残っていない。 本稿では,このギャップを埋めることを目的として,20年以上の研究をマッピングする。 この論文は、ソーシャルネットワークの分析とテキストマイニングを組み合わせた革新的な方法論を用いて、8024の科学的抽象化を調査した。 著者らは、ビルディングとサステナビリティクラスタ(BSC)の7つの主要なテーマグループを特定した。 建築と持続可能性に関する幅広い談話におけるそれらの意義を評価するため,意味的ブランドスコア(SBS)指標を適用した。 さらに、LCAの概念に焦点をあてて、建築と持続可能性の傾向が追跡された。 主な研究テーマは主に建築材料とエネルギー効率に関するものである。 この論文は、広範な文献領域をレビューするための革新的なアプローチの提示に加えて、発展と未開発のテーマに関する洞察も提供し、重要な研究の方向性を概説している。

Research on Life Cycle Assessment (LCA) is being conducted in various sectors, from analyzing building materials and components to comprehensive evaluations of entire structures. However, reviews of the existing literature have been unable to provide a comprehensive overview of research in this field, leaving scholars without a definitive guideline for future investigations. This paper aims to fill this gap, mapping more than twenty years of research. Using an innovative methodology that combines social network analysis and text mining, the paper examined 8024 scientific abstracts. The authors identified seven key thematic groups, building and sustainability clusters (BSCs). To assess their significance in the broader discourse on building and sustainability, the semantic brand score (SBS) indicator was applied. Additionally, building and sustainability trends were tracked, focusing on the LCA concept. The major research topics mainly relate to building materials and energy efficiency. In addition to presenting an innovative approach to reviewing extensive literature domains, the article also provides insights into emerging and underdeveloped themes, outlining crucial future research directions.
翻訳日:2024-09-08 15:31:02 公開日:2024-08-23
# 翻訳におけるアテンションプーリング関数の別の定式化

An alternative formulation of attention pooling function in translation ( http://arxiv.org/abs/2409.00068v1 )

ライセンス: Link先を確認
Eddie Conti, (参考訳) 本研究の目的は,翻訳作業における注目度評価関数の代替的な定式化を行うことである。 一般に、言語は深く構造化されており、注意スコアリング行列に反映される。 我々はこの特性を利用してアテンションプーリング関数を定義し、この側面を考慮に入れます。 第1章では、注意機構を数学的用語で紹介し、その制限と代替的な定式化について説明する。 次に、代替の定式化に繋がる実験的なセッションに焦点を当てる。 基本的に、クエリとキーを特定の方法で操作し、アテンションヘッドの異なる役割をエンコードし、コンテキストを探す場所の値を指示する。 数学的には、この公式は注意点行列(例えば$H$)を固定帯域幅を持つ帯域行列の空間に投影するものと考えることができる。 この凸部分空間は明らかに有限次元であり、従って閉である。 結果として、この空間上の射影はよく考えられ、一意である。 しかし、射影の特異性(すなわち$H$の最適近似)を失う価格で、バンド行列と誤差スパース行列からなる新しい空間を定義した。 これは、$H$を最もよく近似する行列の存在を保証するコンパクトな部分空間であることを証明している。 本論文は,新しい公式,すなわち注意点に対する新しい公式がいかに元の公式に近似するかを計算することによって,論文を締めくくる。 さらに,w(コンテキストウィンドウ)やnum-pos(文中の関連語数)といったパラメータの影響についても検討する。 これらの分析は、言語がどのように処理され、翻訳されるかについての深い洞察を与え、文脈や単語の関連性の役割におけるニュアンスを明らかにする。

The aim of this paper is to present an alternative formulation of the attention scoring function in translation tasks. Generally speaking, language is deeply structured, and this is reflected in the attention scoring matrix. We exploit this property to define the attention pooling function, taking this aspect into account. In the first chapters, we introduce the attention mechanism in mathematical terms and explain its limitations and alternative formulations. Next, we focus on the experimental session that led to the alternative formulation. Essentially, we guide queries and keys to interact in a specific manner, encoding the distinct roles of attention heads and directing values on where to seek context. In mathematical terms, we can think of this formula as projecting the attention scores matrix, say $H$, onto the space of band matrices with fixed bandwidth. This convex subspace is clearly finite-dimensional and therefore closed. As a consequence, the projection on this space is well-posed and unique. However, at the price of losing the uniqueness of the projection (i.e., the best approximation for $H$), we defined a new space consisting of band matrices plus error sparse matrices. We prove that this is a compact subspace which guarantees the existence of a matrix that best approximates $H$. We conclude the thesis by validating the new formula, namely calculating how well the new formula for attention scores approximates the original one. Additionally, we explore the impact of different parameters such as w (context windows) and num-pos (number of relevant words in a sentence). These analyses provide deeper insights into how languages are processed and translated, revealing nuances in the roles of context and word relevance.
翻訳日:2024-09-08 15:21:17 公開日:2024-08-23
# 説明可能なAIシステムにおけるヒューマンAI予測精度の測定方法

How to Measure Human-AI Prediction Accuracy in Explainable AI Systems ( http://arxiv.org/abs/2409.00069v1 )

ライセンス: Link先を確認
Sujay Koujalgi, Andrew Anderson, Iyadunni Adenuga, Shikha Soneji, Rupika Dikkala, Teresita Guzman Nader, Leo Soccio, Sourav Panda, Rupak Kumar Das, Margaret Burnett, Jonathan Dodge, (参考訳) AIシステムの振る舞いを評価する - 特に説明可能なAIシステムにおいて-は、エージェントの次の動きを予測する人々の能力を測定することによって、実証的に実施されることがある。 人間との実証的研究では、タスクを二分法(すなわち予測は正しいか間違っているか)で表すことが明らかだが、これはスケールしない。 出力空間が増加するにつれて、正しい答えと間違った答えの比率が非常に小さくなるため、床効果も大きくなる。 問題の要点は、二項フレーミングが異なる「怒り」の度合いのニュアンスを捉えていないことである。 この問題に対処するために、我々は「部分的誤り」を測定するための3つの数学的基礎の提案から始める。 次に、これらのベースを用いて、逐次決定領域に関する2つの分析を行う。第1は、サイズ36のアクション空間における86人の参加者によるインラボスタディであり、第2は、サイズ4のアクション空間に関する以前の研究の再分析である。 予測タスクと分析手法の運用を取り入れた他の研究者は、そのタスクで実施したユーザスタディの厳密さを改善するだろう。

Assessing an AI system's behavior-particularly in Explainable AI Systems-is sometimes done empirically, by measuring people's abilities to predict the agent's next move-but how to perform such measurements? In empirical studies with humans, an obvious approach is to frame the task as binary (i.e., prediction is either right or wrong), but this does not scale. As output spaces increase, so do floor effects, because the ratio of right answers to wrong answers quickly becomes very small. The crux of the problem is that the binary framing is failing to capture the nuances of the different degrees of "wrongness." To address this, we begin by proposing three mathematical bases upon which to measure "partial wrongness." We then uses these bases to perform two analyses on sequential decision-making domains: the first is an in-lab study with 86 participants on a size-36 action space; the second is a re-analysis of a prior study on a size-4 action space. Other researchers adopting our operationalization of the prediction task and analysis methodology will improve the rigor of user studies conducted with that task, which is particularly important when the domain features a large output space.
翻訳日:2024-09-08 15:21:17 公開日:2024-08-23
# 言語モデリングのための長期的学習

Learning to Plan Long-Term for Language Modeling ( http://arxiv.org/abs/2409.00070v1 )

ライセンス: Link先を確認
Florian Mai, Nathan Cornille, Marie-Francine Moens, (参考訳) 現代の言語モデルは、注意のような強力な機能を通じて過去のテキストを考慮し、シーケンス内の次のトークンを予測する。 しかし、言語モデルには、長期にわたる将来のテキストの計画に計算時間を費やすための明示的なメカニズムがないため、準最適トークン予測に繋がる。 本稿では,多くの文の潜在計画を予測するプランナを提案する。 複数のプランを一度にサンプリングすることにより、テキスト継続の分布の正確な近似に基づいて言語モデルを条件付け、次のトークン予測精度が向上する。 これにより、予測精度の取引計算時間を実現できる。

Modern language models predict the next token in the sequence by considering the past text through a powerful function such as attention. However, language models have no explicit mechanism that allows them to spend computation time for planning long-distance future text, leading to a suboptimal token prediction. In this paper, we propose a planner that predicts a latent plan for many sentences into the future. By sampling multiple plans at once, we condition the language model on an accurate approximation of the distribution of text continuations, which leads to better next token prediction accuracy. In effect, this allows trading computation time for prediction accuracy.
翻訳日:2024-09-08 15:21:17 公開日:2024-08-23
# CortexCompile: 強化マルチエージェントNLPコード合成のための高調波皮質刺激型アーキテクチャ

CortexCompile: Harnessing Cortical-Inspired Architectures for Enhanced Multi-Agent NLP Code Synthesis ( http://arxiv.org/abs/2409.02938v1 )

ライセンス: Link先を確認
Gautham Ramachandran, Rick Yang, (参考訳) コードの自動生成に対する現在のアプローチは、リアルタイムの適応性とスケーラビリティに欠けるモノリシックなモデルに依存していることが多い。 この制限は、動的調整と効率性を必要とする複雑なプログラミングタスクにおいて特に顕著である。 神経科学の原理を自然言語処理(NLP)に統合することは、自動コード生成に革命をもたらす可能性がある。 本稿では,ヒト脳皮質領域の特殊機能に触発された新しいモジュラーシステムであるCortexCompileについて述べる。 前頭前皮質、Parietal Cortex、Temporal Lobe、Motor Cortexの異なる役割をエミュレートすることで、CortexCompileはGPT-4oのような従来のモノリシックモデルと比較してスケーラビリティ、効率、適応性に大きな進歩を遂げている。 システムのアーキテクチャは、動的タスクデリゲートと並列処理を管理するタスクオーケストレーションエージェントを備えており、ますます複雑なプログラミングタスクにまたがる高度に正確で最適化されたコードの生成を容易にする。 CortexCompileは、特にリアルタイム戦略ゲームやファーストパーソンシューティングのタスクにおいて、開発時間、精度、ユーザ満足度において一貫してGPT-4oを上回っている。 これらの発見は、現在のNLPモデルの限界に対処し、より効率的で人間らしいAIシステムを実現する上で、神経科学にインスパイアされたアーキテクチャの生存可能性を強調している。

Current approaches to automated code generation often rely on monolithic models that lack real-time adaptability and scalability. This limitation is particularly evident in complex programming tasks that require dynamic adjustment and efficiency. The integration of neuroscience principles into Natural Language Processing (NLP) has the potential to revolutionize automated code generation. This paper presents CortexCompile, a novel modular system inspired by the specialized functions of the human brain's cortical regions. By emulating the distinct roles of the Prefrontal Cortex, Parietal Cortex, Temporal Lobe, and Motor Cortex, CortexCompile achieves significant advancements in scalability, efficiency, and adaptability compared to traditional monolithic models like GPT-4o. The system's architecture features a Task Orchestration Agent that manages dynamic task delegation and parallel processing, facilitating the generation of highly accurate and optimized code across increasingly complex programming tasks. Experimental evaluations demonstrate that CortexCompile consistently outperforms GPT-4o in development time, accuracy, and user satisfaction, particularly in tasks involving real-time strategy games and first-person shooters. These findings underscore the viability of neuroscience-inspired architectures in addressing the limitations of current NLP models, paving the way for more efficient and human-like AI systems.
翻訳日:2024-09-08 14:53:30 公開日:2024-08-23
# 至適予後のメタモデルにおける最近の進歩

Recent advances in Meta-model of Optimal Prognosis ( http://arxiv.org/abs/2408.15284v1 )

ライセンス: Link先を確認
Thomas Most, Johannes Will, (参考訳) 仮想プロトタイピングプロセスの実際の応用では、物理モデルの複雑さを減らし、迅速に解ける数値モデルが得られるとは限らない。 通常、全ての数値シミュレーションには数時間や数日を要する。 数値解法や高性能計算の進歩はあるものの、そのような場合、様々なモデル構成を探索することは不可能であり、効率的な代理モデルが必要である。 一般に、利用可能なメタモデル技術は、調査された問題によっていくつかの利点と欠点を示す。 本稿では,実際の問題に対して最適なメタモデルを選択するための自動アプローチを提案する。 高度なフィルタ技術を用いて変数空間を自動還元することにより、高次元問題にも効率的な近似が可能となる。

In real case applications within the virtual prototyping process, it is not always possible to reduce the complexity of the physical models and to obtain numerical models which can be solved quickly. Usually, every single numerical simulation takes hours or even days. Although the progresses in numerical methods and high performance computing, in such cases, it is not possible to explore various model configurations, hence efficient surrogate models are required. Generally the available meta-model techniques show several advantages and disadvantages depending on the investigated problem. In this paper we present an automatic approach for the selection of the optimal suitable meta-model for the actual problem. Together with an automatic reduction of the variable space using advanced filter techniques an efficient approximation is enabled also for high dimensional problems.
翻訳日:2024-08-29 18:22:33 公開日:2024-08-23
# 制御・強化学習における2段階確率最適化フレームワーク

A Two-Time-Scale Stochastic Optimization Framework with Applications in Control and Reinforcement Learning ( http://arxiv.org/abs/2109.14756v4 )

ライセンス: Link先を確認
Sihan Zeng, Thinh T. Doan, Justin Romberg, (参考訳) 最適化問題を解くための新しい2時間スケール確率勾配法について検討し、基礎となる最適化変数によって制御される時間変化MDPによって生成されたサンプルの下で、補助変数の助けを借りて勾配を計算する。 これらの時間変化のサンプルは、アップデートの勾配方向を偏り、依存しているため、イテレーションのばらつきにつながる可能性がある。 2時間スケールのアプローチでは、これらのサンプルから真の勾配を推定し、最適解の見積もりを更新する。 これら2つのイテレートは同時に実装されるが、前者は後者よりも高速に更新される。 最初の貢献は、提案した2時間スケール確率勾配法の有限時間複雑性を特徴づけることである。 特に、強い凸性、PL条件、一般の非凸性といった異なる構造的仮定の下で、この手法の収束率について明確な式を提供する。 様々な政策最適化問題に我々の枠組みを適用する。 まず、有限状態と作用空間を持つ無限水平平均逆 MDP を考察し、関数近似に基づくオンラインアクター批判アルゴリズムに対して$O(k^{-2/5}) の収束率を導出する。 第2に,オンラインアクター批判法が$O(k^{-2/3})$と収束することを示す。 第三に、エントロピー正規化マルコフ決定過程におけるポリシー最適化問題の解法としてアクター批判アルゴリズムを用い、ここでは$O(k^{-2/3})$の収束を確立する。 第2問題と第3問題の両方から導かれる結果は、新しいものであり、これまで文献で知られていなかったものである。 最後に、強化学習における勾配に基づく政策評価アルゴリズムへの我々のフレームワークの応用について概説する。

We study a new two-time-scale stochastic gradient method for solving optimization problems, where the gradients are computed with the aid of an auxiliary variable under samples generated by time-varying MDPs controlled by the underlying optimization variable. These time-varying samples make gradient directions in our update biased and dependent, which can potentially lead to the divergence of the iterates. In our two-time-scale approach, one scale is to estimate the true gradient from these samples, which is then used to update the estimate of the optimal solution. While these two iterates are implemented simultaneously, the former is updated "faster" than the latter. Our first contribution is to characterize the finite-time complexity of the proposed two-time-scale stochastic gradient method. In particular, we provide explicit formulas for the convergence rates of this method under different structural assumptions, namely, strong convexity, PL condition, and general non-convexity. We apply our framework to various policy optimization problems. First, we look at the infinite-horizon average-reward MDP with finite state and action spaces and derive a convergence rate of $O(k^{-2/5})$ for the online actor-critic algorithm under function approximation, which recovers the best known rate derived specifically for this problem. Second, we study the linear-quadratic regulator and show that an online actor-critic method converges with rate $O(k^{-2/3})$. Third, we use the actor-critic algorithm to solve the policy optimization problem in an entropy regularized Markov decision process, where we also establish a convergence of $O(k^{-2/3})$. The results we derive for both the second and third problem are novel and previously unknown in the literature. Finally, we briefly present the application of our framework to gradient-based policy evaluation algorithms in reinforcement learning.
翻訳日:2024-08-28 20:36:52 公開日:2024-08-23
# リカレントニューラルネットワークに基づくデータ駆動動的摩擦モデル

Data-Driven Dynamic Friction Models based on Recurrent Neural Networks ( http://arxiv.org/abs/2402.14148v5 )

ライセンス: Link先を確認
Joaquin Garcia-Suarez, (参考訳) 本稿では, Gated Recurrent Unit (GRU) アーキテクチャに基づくRecurrent Neural Networks (RNN) が, 合成データから率と状態の摩擦(RSF)法則の複雑な力学を学習する能力を有することを示す。 ネットワークのトレーニングに使用されるデータは、老朽化法則やスリップ法則と結合した従来のRCF方程式の適用によって生成される。 このアプローチの新たな側面は、自動微分による直接効果を明示的に説明する損失関数の定式化である。 その結果, GRUをベースとしたRNNは, 速度跳躍による摩擦係数の変化を効果的に予測し, 摩擦過程の物理を捉え, シミュレーションする機械学習モデルの可能性を示すことがわかった。 現在の制限と課題について論じる。

In this letter, it is demonstrated that Recurrent Neural Networks (RNNs) based on Gated Recurrent Unit (GRU) architecture, possess the capability to learn the complex dynamics of rate-and-state friction (RSF) laws from synthetic data. The data employed for training the network is generated through the application of traditional RSF equations coupled with either the aging law or the slip law for state evolution. A novel aspect of this approach is the formulation of a loss function that explicitly accounts for the direct effect by means of automatic differentiation. It is found that the GRU-based RNNs effectively learns to predict changes in the friction coefficient resulting from velocity jumps (with and without noise in the target data), thereby showcasing the potential of machine learning models in capturing and simulating the physics of frictional processes. Current limitations and challenges are discussed.
翻訳日:2024-08-28 19:49:00 公開日:2024-08-23
# 進化型心理学インフォームドニューラルネットワークによる記憶行動モデリング

Evolvable Psychology Informed Neural Network for Memory Behavior Modeling ( http://arxiv.org/abs/2408.14492v1 )

ライセンス: Link先を確認
Xiaoxuan Shen, Zhihai Hu, Qirong Chen, Shengyingjie Liu, Ruxia Liang, Jianwen Sun, (参考訳) 記憶行動モデリングは認知心理学と教育における中核的な問題である。 古典心理学理論では、メモリの挙動を記述するのにメモリ方程式が用いられるのが一般的であるが、データ駆動型メモリモデリング法では大量のトレーニングデータを必要とし、解釈可能性に欠けることが多い。 知識インフォームドニューラルネットワークモデルは、物理学のような分野において優れた性能を示してきたが、行動モデリングの分野における試みは少ない。 本稿では、PsyINNという名の記憶行動モデリングのためのニューラルネットワークに情報を与える心理学理論を提案し、ニューラルネットワークとスパースレグレッションの微分を組み合わせたフレームワークを構築し、共同最適化を実現する。 具体的には、メモリ方程式における記述子の論争とあいまいさに対処するため、微分演算子に基づく記述子進化法を提案し、記述子の正確な評価と記憶理論方程式の進化を実現する。 さらに,スパース回帰のためのバッファリング機構と多モジュール反復最適化手法を提案し,勾配不安定性と局所最適問題を効果的に緩和する。 4つの大規模実世界のメモリ挙動データセットにおいて,提案手法は予測精度において最先端の手法を超越する。 アブレーション研究は、提案された改善の有効性を示し、応用実験は、心理的研究を刺激する可能性を示している。

Memory behavior modeling is a core issue in cognitive psychology and education. Classical psychological theories typically use memory equations to describe memory behavior, which exhibits insufficient accuracy and controversy, while data-driven memory modeling methods often require large amounts of training data and lack interpretability. Knowledge-informed neural network models have shown excellent performance in fields like physics, but there have been few attempts in the domain of behavior modeling. This paper proposed a psychology theory informed neural networks for memory behavior modeling named PsyINN, where it constructs a framework that combines neural network with differentiating sparse regression, achieving joint optimization. Specifically, to address the controversies and ambiguity of descriptors in memory equations, a descriptor evolution method based on differentiating operators is proposed to achieve precise characterization of descriptors and the evolution of memory theoretical equations. Additionally, a buffering mechanism for the sparse regression and a multi-module alternating iterative optimization method are proposed, effectively mitigating gradient instability and local optima issues. On four large-scale real-world memory behavior datasets, the proposed method surpasses the state-of-the-art methods in prediction accuracy. Ablation study demonstrates the effectiveness of the proposed refinements, and application experiments showcase its potential in inspiring psychological research.
翻訳日:2024-08-28 18:11:54 公開日:2024-08-23
# 深部時系列アグリゲーションに基づく新電力系統の典型的な運用シナリオの抽出

Extraction of Typical Operating Scenarios of New Power System Based on Deep Time Series Aggregation ( http://arxiv.org/abs/2408.14493v1 )

ライセンス: Link先を確認
Zhaoyang Qu, Zhenming Zhang, Nan Qu, Yuguang Zhou, Yang Li, Tao Jiang, Min Li, Chao Long, (参考訳) 典型的な運用シナリオの抽出は、新しい電源システムのディスパッチにおいて柔軟な決定を行う上で不可欠である。 本研究は, 歴史的スナップショットデータ量の多さを考慮して, 典型的な運用シナリオを生成するための新しいDeep Time Series aggregate scheme (DTSA) を提案する。 具体的には、DTSAは、典型的な運用シナリオを数学的に表現するために、異なるスケジューリング操作シナリオの本質的なメカニズムを分析する。 GASFに基づく運用シナリオ画像エンコーダは,操作シナリオシーケンスを高次元空間に変換するように設計された。 これにより、DTSAは、深い特徴反復アグリゲーションモデルを用いて、新しい電力系統の時空間特性を完全に把握することができる。 エンコーダはまた、グリッドの運用スナップショットの整合性を確保しながら、履歴データ分布に準拠する典型的な運用シナリオの生成を容易にする。 ケーススタディでは,提案手法が新たな微粒化電力系統分割方式を抽出し,最新の高次元特徴スクリーニング法よりも優れた性能を示した。 さらに,提案手法のロバスト性を検証するため,新しいエネルギーアクセス比の異なる実験を行った。 DTSAは、電源システムの運用経験を事前にマスターし、新しいエネルギーのアクセス率の高い運用シナリオの動的変化に積極的に対応できるようにする。

Extracting typical operational scenarios is essential for making flexible decisions in the dispatch of a new power system. This study proposed a novel deep time series aggregation scheme (DTSAs) to generate typical operational scenarios, considering the large amount of historical operational snapshot data. Specifically, DTSAs analyze the intrinsic mechanisms of different scheduling operational scenario switching to mathematically represent typical operational scenarios. A gramian angular summation field (GASF) based operational scenario image encoder was designed to convert operational scenario sequences into high-dimensional spaces. This enables DTSAs to fully capture the spatiotemporal characteristics of new power systems using deep feature iterative aggregation models. The encoder also facilitates the generation of typical operational scenarios that conform to historical data distributions while ensuring the integrity of grid operational snapshots. Case studies demonstrate that the proposed method extracted new fine-grained power system dispatch schemes and outperformed the latest high-dimensional featurescreening methods. In addition, experiments with different new energy access ratios were conducted to verify the robustness of the proposed method. DTSAs enables dispatchers to master the operation experience of the power system in advance, and actively respond to the dynamic changes of the operation scenarios under the high access rate of new energy.
翻訳日:2024-08-28 18:01:37 公開日:2024-08-23
# プロセスエンジニアリングにおけるタスク自動化のための知識グラフモデリング駆動大規模言語モデルオペレーティングシステム(LLM OS)

Knowledge Graph Modeling-Driven Large Language Model Operating System (LLM OS) for Task Automation in Process Engineering Problem-Solving ( http://arxiv.org/abs/2408.14494v1 )

ライセンス: Link先を確認
Sakhinana Sagar Srinivas, Vijay Sri Vaikunth, Venkataramana Runkana, (参考訳) 本稿では,化学・プロセス産業における複雑な問題の解決を目的としたAI駆動型フレームワークであるプロセスエンジニアリングオペレーションアシスタント(PEOA)を紹介する。 このフレームワークはメタエージェントによって構成されるモジュラーアーキテクチャを採用しており、中央コーディネータとして機能し、アクションジェネレータと命令調整された小規模言語モデル(エキスパートモデル)を管理する。 アクションジェネレータは、複雑な問題をサブタスクに分解し、それぞれを実行するのに適した専門家モデルを特定し、マルチステップ問題解決のための正確なソリューションを提供する。 鍵となる技術は、情報検索を改善するためにプロパティグラフを用いた高度な知識モデリングであり、より正確で文脈的に関係のあるソリューションを容易にする。 さらに, GPT-4 (Omni) を用いた教師学生移動学習手法を用いて, 高精度なエラー処理を伴う反復的問題解決機構とともに, ドメイン適応のためのアクションジェネレータとエキスパートモデルを微調整する。 さまざまなエンジニアリングタスクにおいて、主要なプロプライエタリ言語モデルに対してフレームワークを評価するために、カスタムデータセットが開発された。 その結果、計算の自動化、プロトタイピングの高速化、AIによる産業プロセスの意思決定支援などにおけるフレームワークの有効性が示され、プロセスエンジニアリング能力の大幅な進歩を示している。

We present the Process Engineering Operations Assistant (PEOA), an AI-driven framework designed to solve complex problems in the chemical and process industries. The framework employs a modular architecture orchestrated by a meta-agent, which serves as the central coordinator, managing an action generator and instruction-tuned small-scale language models (expert models). The action generator decomposes complex problems into sub-tasks and identifies suitable expert models to execute each, delivering precise solutions for multi-step problem-solving. Key techniques include advanced knowledge modeling using property graphs for improved information retrieval, facilitating more accurate and contextually relevant solutions. Additionally, the framework utilizes a teacher-student transfer-learning approach with GPT-4 (Omni) to fine-tune the action generator and expert models for domain adaptation, alongside an iterative problem-solving mechanism with sophisticated error handling. Custom datasets were developed to evaluate the framework against leading proprietary language models on various engineering tasks. The results demonstrate the framework effectiveness in automating calculations, accelerating prototyping, and providing AI-augmented decision support for industrial processes, marking a significant advancement in process engineering capabilities.
翻訳日:2024-08-28 18:01:37 公開日:2024-08-23
# 計算病理学の新しい時代:基礎モデルと視覚言語モデルに関する調査

A New Era in Computational Pathology: A Survey on Foundation and Vision-Language Models ( http://arxiv.org/abs/2408.14496v1 )

ライセンス: Link先を確認
Dibaloke Chanda, Milan Aryal, Nasim Yahya Soltani, Masoud Ganji, (参考訳) 近年のディープラーニングの進歩は、計算病理学(CPath)の領域を完全に変え、その結果、基礎モデル(FM)と視覚言語モデル(VLM)をその評価と意思決定プロセスに統合することで、病理医の診断ワークフローを変化させた。 FMはCPathの既存のディープラーニングアプローチの限界を克服し、明示的な監督なしに様々な下流タスクに適応できる表現空間を学習する。 VLMは、自然言語で書かれた病理報告をリッチな意味情報ソースとして使用し、既存のモデルを改善し、自然言語形式で予測を生成する。 本調査では,近年のFM, VLM, CPathの総合的, 体系的な技術革新について概説する。 さらに、これらのモデルのツール、データセット、トレーニングスキームを要約し、異なるグループに分類する。 この広範な調査は、CPathの現在のトレンドと、将来FMやVLMによって変革される方法を強調している。

Recent advances in deep learning have completely transformed the domain of computational pathology (CPath), which in turn altered the diagnostic workflow of pathologists by integrating foundation models (FMs) and vision-language models (VLMs) in their assessment and decision-making process. FMs overcome the limitations of existing deep learning approaches in CPath by learning a representation space that can be adapted to a wide variety of downstream tasks without explicit supervision. VLMs allow pathology reports written in natural language to be used as a rich semantic information source to improve existing models as well as generate predictions in natural language form. In this survey, a holistic and systematic overview of recent innovations in FMs and VLMs in CPath is presented. Furthermore, the tools, datasets and training schemes for these models are summarized in addition to categorizing them into distinct groups. This extensive survey highlights the current trends in CPath and the way it is going to be transformed through FMs and VLMs in the future.
翻訳日:2024-08-28 18:01:37 公開日:2024-08-23
# 弱教師付き異常検出のための再構成に基づくマルチノードプロトタイプ学習

Reconstruction-based Multi-Normal Prototypes Learning for Weakly Supervised Anomaly Detection ( http://arxiv.org/abs/2408.14498v1 )

ライセンス: Link先を確認
Zhijin Dong, Hongzhi Liu, Boyuan Ren, Weimin Xiong, Zhonghai Wu, (参考訳) 異常検出は様々な領域において重要な課題である。 既存の手法のほとんどは、単一の中央プロトタイプの周りの通常のサンプルデータクラスタを仮定するが、実際のデータは複数のカテゴリまたはサブグループから構成される可能性がある。 加えて、既存の手法は常にすべてのラベルなしデータは正常であると仮定するが、必然的にいくつかの異常なサンプルを含んでいる。 これらの問題に対処するために, ラベル付き限られた異常と, ラベル付き未表示データによる異常検出を併用した, 再構成に基づく多正規化学習フレームワークを提案する。 具体的には,通常のサンプルデータがマルチモーダル分布を満たすと仮定し,深層埋め込みクラスタリングとコントラスト学習を用いて,複数の正規プロトタイプを学習して表現する。 さらに, 各種未ラベルデータにおける汚染異常の影響を緩和するためのトレーニングプロセスを指導し, マルチノーマルなプロトタイプに基づいて, それぞれの未ラベルサンプルが正常である可能性を推定した。 各種データセットに対する大規模な実験は,最先端技術と比較して,提案手法の優れた性能を示す。

Anomaly detection is a crucial task in various domains. Most of the existing methods assume the normal sample data clusters around a single central prototype while the real data may consist of multiple categories or subgroups. In addition, existing methods always assume all unlabeled data are normal while they inevitably contain some anomalous samples. To address these issues, we propose a reconstruction-based multi-normal prototypes learning framework that leverages limited labeled anomalies in conjunction with abundant unlabeled data for anomaly detection. Specifically, we assume the normal sample data may satisfy multi-modal distribution, and utilize deep embedding clustering and contrastive learning to learn multiple normal prototypes to represent it. Additionally, we estimate the likelihood of each unlabeled sample being normal based on the multi-normal prototypes, guiding the training process to mitigate the impact of contaminated anomalies in the unlabeled data. Extensive experiments on various datasets demonstrate the superior performance of our method compared to state-of-the-art techniques.
翻訳日:2024-08-28 18:01:37 公開日:2024-08-23
# SHEDAD:SNNによる都市変電所の暖房異常検出

SHEDAD: SNN-Enhanced District Heating Anomaly Detection for Urban Substations ( http://arxiv.org/abs/2408.14499v1 )

ライセンス: Link先を確認
Jonne van Dreven, Abbas Cheddad, Sadi Alawadi, Ahmad Nauman Ghazi, Jad Al Koussa, Dirk Vanhoudt, (参考訳) 地域暖房システム(DH)はエネルギー効率の高い都市暖房に不可欠である。 しかし、自動故障検出・診断(FDD)の進歩にもかかわらず、DHは依然として効率に影響を及ぼす運用上の故障の課題に直面している。 本研究は,DHネットワークトポロジを近似し,サブステーション位置などの機密情報を開示することなく局所異常検出が可能な共有近傍地域暖房異常検出(SHEDAD)手法を提案する。 このアプローチでは、k-Nearest Neighbor(k-NN)グラフを多値化することにより、初期近傍の生成を改善する。 さらに、ノイズを低減し、自明なエッジを除去するマージ技術を導入している。 我々は、メディア絶対偏差(MAD)と修正zスコアを用いて、異常なサブステーションをフラグする。 その結果、SHEDADは従来のクラスタリング法よりも優れており、クラスタ内のばらつきや距離が著しく低いことが判明した。 さらに、SHEDADは、供給温度とサブステーション性能の2つの異なるカテゴリーの異常を効果的に分離し識別する。 異常なサブステーションを30個同定し, 約65 %, 特異度約97 %に到達した。 SHEDADは、ネットワーク内の低パフォーマンスサブステーションのサブセットに焦点を当てることで、よりターゲットを絞った効果的なメンテナンス介入を可能にし、ネットワーク性能を最適化しながらエネルギー使用量を削減できる。

District Heating (DH) systems are essential for energy-efficient urban heating. However, despite the advancements in automated fault detection and diagnosis (FDD), DH still faces challenges in operational faults that impact efficiency. This study introduces the Shared Nearest Neighbor Enhanced District Heating Anomaly Detection (SHEDAD) approach, designed to approximate the DH network topology and allow for local anomaly detection without disclosing sensitive information, such as substation locations. The approach leverages a multi-adaptive k-Nearest Neighbor (k-NN) graph to improve the initial neighborhood creation. Moreover, it introduces a merging technique that reduces noise and eliminates trivial edges. We use the Median Absolute Deviation (MAD) and modified z-scores to flag anomalous substations. The results reveal that SHEDAD outperforms traditional clustering methods, achieving significantly lower intra-cluster variance and distance. Additionally, SHEDAD effectively isolates and identifies two distinct categories of anomalies: supply temperatures and substation performance. We identified 30 anomalous substations and reached a sensitivity of approximately 65\% and specificity of approximately 97\%. By focusing on this subset of poor-performing substations in the network, SHEDAD enables more targeted and effective maintenance interventions, which can reduce energy usage while optimizing network performance.
翻訳日:2024-08-28 18:01:37 公開日:2024-08-23
# サプライチェーンネットワークにおけるグラフニューラルネットワークの適用

Applying graph neural network to SupplyGraph for supply chain network ( http://arxiv.org/abs/2408.14501v1 )

ライセンス: Link先を確認
Kihwan Han, (参考訳) サプライチェーンネットワークは、製品の供給と需要の文脈における製品、製造設備、ストレージ間の相互作用を記述している。 サプライチェーンデータは本質的にグラフ構造下にあるため、グラフニューラルネットワーク(GNN)の応用には最適である。 ごく最近、サプライチェーンのデータセットであるSabridGraphが一般公開された。 supplyGraphデータセットは、公開データの不足を考えると価値があるが、データセットの記述、データ品質保証プロセス、選択されたモデルのハイパーパラメータについて、明確さは少なかった。 さらに, 結果の一般化可能性については, 誤差の平均値を示すのではなく, 誤差の分布に関する統計的解析を行うことにより, 結果の提示がより説得力のあるものとなる。 そこで本研究では,分析プロセス,データ品質保証,機械学習(ML)モデル仕様の明確化を図るとともに,サプライチェーンのデータセットであるサプライグラフを評価した。 データ品質保証処理の後,ハイパーパラメータを可能な限り整合させながら,要求予測タスクにおける多層知覚(MLP),グラフ畳み込みネットワーク(GCN),グラフ注意ネットワーク(GAT)の性能を比較した。 分析の結果, GATはGCN, MLPが高値を示した。 これらの性能改善は、複数の比較の修正後の$\alpha = 0.05$で統計的に有意であった。 本研究は、GNNをサプライチェーンネットワークに適用する際のいくつかの考察についても論じる。 本研究は、サプライチェーンベンチマークデータセットにおけるデータセットと方法論の記述に関する以前の研究を補強し、サプライチェーンへのGNNの適用に関する今後の研究がより再現性を高めている。

Supply chain networks describe interactions between products, manufacture facilities, storages in the context of supply and demand of the products. Supply chain data are inherently under graph structure; thus, it can be fertile ground for applications of graph neural network (GNN). Very recently, supply chain dataset, SupplyGraph, has been released to the public. Though the SupplyGraph dataset is valuable given scarcity of publicly available data, there was less clarity on description of the dataset, data quality assurance process, and hyperparameters of the selected models. Further, for generalizability of findings, it would be more convincing to present the findings by performing statistical analyses on the distribution of errors rather than showing the average value of the errors. Therefore, this study assessed the supply chain dataset, SupplyGraph, with better clarity on analyses processes, data quality assurance, machine learning (ML) model specifications. After data quality assurance procedures, this study compared performance of Multilayer Perceptions (MLP), Graph Convolution Network (GCN), and Graph Attention Network (GAT) on a demanding forecasting task while matching hyperparameters as feasible as possible. The analyses revealed that GAT performed best, followed by GCN and MLP. Those performance improvements were statistically significant at $\alpha = 0.05$ after correction for multiple comparisons. This study also discussed several considerations in applying GNN to supply chain networks. The current study reinforces the previous study in supply chain benchmark dataset with respect to description of the dataset and methodology, so that the future research in applications of GNN to supply chain becomes more reproducible.
翻訳日:2024-08-28 18:01:37 公開日:2024-08-23
# 形式的概念分析とデンプスター・シェーファー理論を用いたフレキシブル分類

Flexible categorization using formal concept analysis and Dempster-Shafer theory ( http://arxiv.org/abs/2408.15012v1 )

ライセンス: Link先を確認
Marcel Boersma, Krishna Manoorkar, Alessandra Palmigiano, Mattia Panettiere, Apostolos Tzimoulis, Nachoem Wijnberg, (参考訳) ビジネスプロセスの分類は監査の重要な部分です。 監査における大量のトランザクションデータは、重み付き二部グラフを使用して財務口座間のトランザクションとして表現することができる。 我々は、これらの二部グラフを、形式的概念分析の手法を用いて、ビジネスプロセスにかかわる財務会計の観点で、これらのビジネスプロセスの説明可能な分類を得るために、多くの価値ある形式的文脈として捉えている。 Dempster-Shaferのマス関数を使用して、さまざまな金融口座に対する異なる関心を示すアジェンダを表現しています。 我々はまた、異なる尋問的議題を持つエージェント間の交渉シナリオをモデル化し、集約された議題と分類に到達する。 本稿では、組織内の異なるエージェント(例えば監査会社)の議題に従って、二部グラフとして表されるデータから説明可能な分類を取得し、研究するための公式な基盤を提供する。 我々は,このフレームワークを用いて,外乱検出と分類のための機械学習のメタアルゴリズムを記述し,その結果の局所的およびグローバル的説明を提供し,外乱検出アルゴリズムを用いてそれを実証する。

Categorization of business processes is an important part of auditing. Large amounts of transactional data in auditing can be represented as transactions between financial accounts using weighted bipartite graphs. We view such bipartite graphs as many-valued formal contexts, which we use to obtain explainable categorization of these business processes in terms of financial accounts involved in a business process by using methods in formal concept analysis. We use Dempster-Shafer mass functions to represent agendas showing different interest in different set of financial accounts. We also model some possible deliberation scenarios between agents with different interrogative agendas to reach an aggregated agenda and categorization. The framework developed in this paper provides a formal ground to obtain and study explainable categorizations from the data represented as bipartite graphs according to the agendas of different agents in an organization (e.g. an audit firm), and interaction between these through deliberation. We use this framework to describe a machine-leaning meta algorithm for outlier detection and classification which can provide local and global explanations of its result and demonstrate it through an outlier detection algorithm.
翻訳日:2024-08-28 13:53:43 公開日:2024-08-23
# ブロックチェーンによるIoT監視 - サービスレベルの合意からスマートコントラクトを生成する

IoT Monitoring with Blockchain: Generating Smart Contracts from Service Level Agreements ( http://arxiv.org/abs/2408.15016v1 )

ライセンス: Link先を確認
Adam Booth, Awatif Alqahtani, Ellis Solaiman, (参考訳) サービスレベルアグリーメント(SLA)は、クライアントがサービスを購入するときに受け取ることができる品質のサービス(QoS)を保証するクライアントとプロバイダの間のコミットメントである。 しかし、IoT(Internet of Things)サービス監視データのSLA違反の証拠は、プロバイダまたはコンシューマによって操作できるため、契約された当事者間の信頼の問題が発生する。 次の研究は、スマートコントラクトを使用してIoTシステムを監視するためのブロックチェーンテクノロジの利用を検討することを目的としている。 この研究は、与えられたSLAからスマートコントラクトを生成することができるJavaライブラリの開発に焦点を当てている。 このライブラリによって生成されたスマートコントラクトは、リモート患者監視IoTシステムの形式で提示されたモックシナリオを通じて検証される。 このシナリオでは、エミュレートされたすべての違反をキャプチャして100%の成功率を示す。

A Service Level Agreement (SLA) is a commitment between a client and provider that assures the quality of service (QoS) a client can expect to receive when purchasing a service. However, evidence of SLA violations in Internet of Things (IoT) service monitoring data can be manipulated by the provider or consumer, resulting in an issue of trust between contracted parties. The following research aims to explore the use of blockchain technology in monitoring IoT systems using smart contracts so that SLA violations captured are irrefutable amongst service providers and clients. The research focuses on the development of a Java library that is capable of generating a smart contract from a given SLA. A smart contract generated by this library is validated through a mock scenario presented in the form of a Remote Patient Monitoring IoT system. In this scenario, the findings demonstrate a 100 percent success rate in capturing all emulated violations.
翻訳日:2024-08-28 13:53:43 公開日:2024-08-23
# 量子干渉における集合的挙動 : 代替的重ね合わせ原理

Collective behavior in quantum interference: an alternative superposition principle ( http://arxiv.org/abs/2112.05233v2 )

ライセンス: Link先を確認
F. V. Kowalski, (参考訳) 全ての成分が量子体として扱われる干渉計は、標準解釈と、その非結合空間分離成分が集合的に作用するモデルを用いて検討される。 これらのモデルは、3つ以上のボディからなるシステムに適用した場合に異なる重ね合わせ原理を利用する。 周波数シフトとリコイルの干渉係数の差は測定が困難であることが示されている。 より顕著な相違は相関的な干渉を含む。 集合モデルは、量子理論と半古典理論の間に欠落した関係をもたらすことが示されている。 絡み合った状態から切り離せない部分の散乱は、集合的再コイルに関連して議論される。 集団散乱は標準モデルの代替となりうることが示され、3つ以上の体を持つ系における重ね合わせ原理の試験を構築するための洞察を与える。

An interferometer in which all of its components are treated as quantum bodies is examined with the standard interpretation and with a model in which its uncoupled spatially separated components act collectively. These models utilize superposition principles that differ when applied to systems composed of three or more bodies. Interferometric disparities between them involving frequency shifts and recoil are shown to be difficult to measure. More pronounced discrepancies involve correlated interference. The collective model is shown to provide a missing connection between quantum and semiclassical theories. Scattering from an entangled state, which cannot be divided into disjoint parts, is discussed in relation to collective recoil. Collective scattering is shown to be a viable alternative to the standard model, thereby providing insight into constructing tests of the superposition principle in systems with three or more bodies.
翻訳日:2024-08-28 01:37:08 公開日:2024-08-23
# 深層学習と不確実性定量化によるセマンティックセグメンテーションデータセットにおけるラベル誤りの自動検出

Automated Detection of Label Errors in Semantic Segmentation Datasets via Deep Learning and Uncertainty Quantification ( http://arxiv.org/abs/2207.06104v2 )

ライセンス: Link先を確認
Matthias Rottmann, Marco Reese, (参考訳) 本研究では,画像データセットのセマンティックセグメンテーション,すなわち画素単位のクラスラベルを用いてラベル誤りを検出する手法を初めて提示する。 セマンティックセグメンテーションデータセットのアノテーション取得には時間がかかり、多くの人的労力が必要になります。 特に、レビュープロセスは時間がかかり、ラベルのエラーは人間が容易に見落としてしまう。 その結果はベンチマークに偏りがあり、極端な場合では、そのようなデータセットでトレーニングされたディープニューラルネットワーク(DNN)のパフォーマンス劣化も発生する。 意味的セグメンテーションのためのDNNは、不確実性定量化によるラベルエラーの検出を複雑なタスクとする画素ワイズ予測を生成する。 不確かさは、予測の接続されたコンポーネント間の遷移において特に顕著である。 予測されたコンポーネントのレベルに対する不確実性を考慮することで、DNNとコンポーネントレベルの不確実性定量化を併用してラベルエラーの検出を可能にする。 本稿では,CARLA運転シミュレータから抽出したデータセットから,Cityscapesデータセットからラベルを抽出し,ラベル検出タスクをベンチマークする手法を提案する。 実験の結果,提案手法はラベル誤りの大多数を誤検出の回数を制御しながら検出できることがわかった。 さらに,コンピュータビジョンコミュニティが頻繁に使用しているセグメンテーションデータセットに本手法を適用し,サンプル統計とともにラベルエラーのコレクションを提示する。

In this work, we for the first time present a method for detecting label errors in image datasets with semantic segmentation, i.e., pixel-wise class labels. Annotation acquisition for semantic segmentation datasets is time-consuming and requires plenty of human labor. In particular, review processes are time consuming and label errors can easily be overlooked by humans. The consequences are biased benchmarks and in extreme cases also performance degradation of deep neural networks (DNNs) trained on such datasets. DNNs for semantic segmentation yield pixel-wise predictions, which makes detection of label errors via uncertainty quantification a complex task. Uncertainty is particularly pronounced at the transitions between connected components of the prediction. By lifting the consideration of uncertainty to the level of predicted components, we enable the usage of DNNs together with component-level uncertainty quantification for the detection of label errors. We present a principled approach to benchmarking the task of label error detection by dropping labels from the Cityscapes dataset as well from a dataset extracted from the CARLA driving simulator, where in the latter case we have the labels under control. Our experiments show that our approach is able to detect the vast majority of label errors while controlling the number of false label error detections. Furthermore, we apply our method to semantic segmentation datasets frequently used by the computer vision community and present a collection of label errors along with sample statistics.
翻訳日:2024-08-28 01:37:08 公開日:2024-08-23
# MetaGAD:Few-Shot Graph 異常検出のためのメタ表現適応

MetaGAD: Meta Representation Adaptation for Few-Shot Graph Anomaly Detection ( http://arxiv.org/abs/2305.10668v2 )

ライセンス: Link先を確認
Xiongxiao Xu, Kaize Ding, Canyu Chen, Kai Shu, (参考訳) グラフ異常検出は、金融詐欺、社会スパム、ネットワーク侵入などの情報セキュリティに関する諸分野において、長年にわたり重要な問題であった。 既存の手法のほとんどは教師なしの方法で実行されており、大規模にラベル付けされた異常は取得するには高すぎることが多い。 しかし、識別された異常は、事前の知識が欠如しているため、データインスタンスが興味をそそらないことが判明する。 実世界のシナリオでは、しばしば制限付きラベル付き異常を得ることが可能であり、グラフ異常の検出を前進させる大きな可能性を秘めている。 しかし, ラベル付き異常やグラフ内の未ラベルノードを多数探索して異常を検出する作業は, 比較的限られている。 そこで本研究では,少数ショットグラフ異常検出における重要な問題について検討する。 それでも、異常な異常や数ショット学習における過度な問題のために、数ショットの異常なノードの情報を完全に活用することは困難である。 このような課題に対処するために,自己教師付き学習からグラフ異常検出のための少数ショット教師付き学習への知識の適応を学習する,メタ学習ベースの新しいフレームワーク,MetaGADを提案する。 具体的には、二段階最適化として問題を定式化し、MetaGADの収束を保証し、検証損失を最小限に抑え、一般化能力を高める。 合成異常を伴う6つの実世界のデータセットと「有機」異常(データセットで利用できる)に関する包括的な実験は、メタGADが数発の異常を検知する効果を実証している。 コードはhttps://github.com/XiongxiaoXu/MetaGADで入手できる。

Graph anomaly detection has long been an important problem in various domains pertaining to information security such as financial fraud, social spam and network intrusion. The majority of existing methods are performed in an unsupervised manner, as labeled anomalies in a large scale are often too expensive to acquire. However, the identified anomalies may turn out to be uninteresting data instances due to the lack of prior knowledge. In real-world scenarios, it is often feasible to obtain limited labeled anomalies, which have great potential to advance graph anomaly detection. However, the work exploring limited labeled anomalies and a large amount of unlabeled nodes in graphs to detect anomalies is relatively limited. Therefore, in this paper, we study an important problem of few-shot graph anomaly detection. Nonetheless, it is challenging to fully leverage the information of few-shot anomalous nodes due to the irregularity of anomalies and the overfitting issue in the few-shot learning. To tackle the above challenges, we propose a novel meta-learning based framework, MetaGAD, that learns to adapt the knowledge from self-supervised learning to few-shot supervised learning for graph anomaly detection. In specific, we formulate the problem as a bi-level optimization, ensuring MetaGAD converging to minimizing the validation loss, thus enhancing the generalization capacity. The comprehensive experiments on six real-world datasets with synthetic anomalies and "organic" anomalies (available in the datasets) demonstrate the effectiveness of MetaGAD in detecting anomalies with few-shot anomalies. The code is available at https://github.com/XiongxiaoXu/MetaGAD.
翻訳日:2024-08-28 01:17:09 公開日:2024-08-23
# 音響と電磁の時空幾何学

Spacetime geometry of acoustics and electromagnetism ( http://arxiv.org/abs/2305.11448v2 )

ライセンス: Link先を確認
Lucas Burns, Tatsuya Daniel, Stephon Alexander, Justin Dressel, (参考訳) 音響と電磁界は、動的ポテンシャル場の観点から測定可能な場を表す。 電磁力場は、動的エネルギー運動量4-ベクトルポテンシャル場で表される時空のベクトルを形成する。 音圧と速度場は、動的作用スカラーポテンシャル場によって表されるエネルギー-運動量密度4-ベクトル場を形成する。 驚くべきことに、これらの従来のポテンシャル表現に基づくスピン角運動量の標準場理論解析は、両方の理論を慎重に再評価する動機となる最近の実験と矛盾する。 我々は、時空の完全な幾何学的構造を用いて真空波伝搬によって強制される本質的な対称性を尊重する両方の理論の拡張を分析する。 結果として得られる拡張は、時空の5つのグレードすべてにまたがる幾何学的完備かつ位相不変(つまり双対称)な定式化であり、時空ベクトル微分(すなわち、量子ディラック作用素)によって関連付けられた相補的なグレードにまたがる動的ポテンシャルと可測体を持つ。 これらの完全な表現は運動方程式、エネルギー-運動量テンソル、プローブで経験した力、ラグランジュ密度、ゲージ自由度を補正し、相対論的場の量子論に深い構造的関係を示す。 最後に,これらの補正が実験的実験に与える影響について考察する。

Both acoustics and electromagnetism represent measurable fields in terms of dynamical potential fields. Electromagnetic force-fields form a spacetime bivector that is represented by a dynamical energy-momentum 4-vector potential field. Acoustic pressure and velocity fields form an energy-momentum density 4-vector field that is represented by a dynamical action scalar potential field. Surprisingly, standard field theory analyses of spin angular momentum based on these traditional potential representations contradict recent experiments, which motivates a careful reassessment of both theories. We analyze extensions of both theories that use the full geometric structure of spacetime to respect essential symmetries enforced by vacuum wave propagation. The resulting extensions are geometrically complete and phase-invariant (i.e., dual-symmetric) formulations that span all five grades of spacetime, with dynamical potentials and measurable fields spanning complementary grades that are related by a spacetime vector derivative (i.e., the quantum Dirac operator). These complete representations correct the equations of motion, energy-momentum tensors, forces experienced by probes, Lagrangian densities, and allowed gauge freedoms, while making manifest the deep structural connections to relativistic quantum field theories. Finally, we discuss the implications of these corrections to experimental tests.
翻訳日:2024-08-28 01:17:09 公開日:2024-08-23
# 独立因果メカニズムの原理による因果解離表現の学習

Learning Causally Disentangled Representations via the Principle of Independent Causal Mechanisms ( http://arxiv.org/abs/2306.01213v4 )

ライセンス: Link先を確認
Aneesh Komanduri, Yongkai Wu, Feng Chen, Xintao Wu, (参考訳) 分散因果表現の学習は、下流タスクに意味のある情報を抽出することの意味から、近年大きな注目を集めている課題である。 本研究では、独立因果メカニズムの観点から因果解離の新たな概念を定義する。 ICM-VAEは、因果関係の観測ラベルによって教師される因果関係の不整合表現を学習するためのフレームワークである。 非線形学習可能なフローベース微分型関数を用いて因果メカニズムをモデル化し、雑音変数を潜在因果変数にマッピングする。 さらに, 因果関係の絡み合いを促進するために, 補助ラベルと潜伏因果構造から学習した因果関係の絡み合いを提案する。 理論的には、因果因子と機構の置換および要素的再パラメータ化による識別可能性を示す。 我々は,我々の枠組みが高度に絡み合った因果関係を誘発し,介入の堅牢性を向上し,反事実生成と互換性があることを実証的に実証した。

Learning disentangled causal representations is a challenging problem that has gained significant attention recently due to its implications for extracting meaningful information for downstream tasks. In this work, we define a new notion of causal disentanglement from the perspective of independent causal mechanisms. We propose ICM-VAE, a framework for learning causally disentangled representations supervised by causally related observed labels. We model causal mechanisms using nonlinear learnable flow-based diffeomorphic functions to map noise variables to latent causal variables. Further, to promote the disentanglement of causal factors, we propose a causal disentanglement prior learned from auxiliary labels and the latent causal structure. We theoretically show the identifiability of causal factors and mechanisms up to permutation and elementwise reparameterization. We empirically demonstrate that our framework induces highly disentangled causal factors, improves interventional robustness, and is compatible with counterfactual generation.
翻訳日:2024-08-28 01:17:09 公開日:2024-08-23
# 最適性を保証したローカル分散オンライン学習

Locally Differentially Private Distributed Online Learning with Guaranteed Optimality ( http://arxiv.org/abs/2306.14094v3 )

ライセンス: Link先を確認
Ziqin Chen, Yongqiang Wang, (参考訳) 大規模なデータセットとストリーミングデータを処理するというユニークな能力のおかげで、分散オンライン学習が勢いを増している。 プライバシー保護に対する大衆の認識と関心の高まりに対処するため、分散オンライン最適化と学習において、差分プライバシーを可能にするために、多くのアルゴリズムが提案されている。 しかし、これらのアルゴリズムは、プライバシのための学習精度の取引のジレンマに直面することが多い。 オンライン学習の特徴を生かして,このジレンマに対処し,分散オンライン学習における差分プライバシーと学習精度を両立させる手法を提案する。 より具体的には、予想される即時後悔を減らしながら、無限の時間的地平の下でも、このアプローチは有限累積プライバシー予算を同時に確保できる。 このフレームワークは、古典的な「分散(グローバル)」微分プライバシフレームワークで必要とされる信頼されたデータキュレーターに依存しない。 私たちの知る限りでは、このアルゴリズムは厳密な局所的な差分プライバシーと学習精度の両方を確実にする最初のアルゴリズムです。 提案アルゴリズムの有効性を機械学習タスクを用いて評価し,MNISTデータセットとCIFAR-10データセットのCNN画像分類と"mushrooms"データセットのロジスティック回帰を行った。

Distributed online learning is gaining increased traction due to its unique ability to process large-scale datasets and streaming data. To address the growing public awareness and concern on privacy protection, plenty of algorithms have been proposed to enable differential privacy in distributed online optimization and learning. However, these algorithms often face the dilemma of trading learning accuracy for privacy. By exploiting the unique characteristics of online learning, this paper proposes an approach that tackles the dilemma and ensures both differential privacy and learning accuracy in distributed online learning. More specifically, while ensuring a diminishing expected instantaneous regret, the approach can simultaneously ensure a finite cumulative privacy budget, even in the infinite time horizon. To cater for the fully distributed setting, we adopt the local differential-privacy framework, which avoids the reliance on a trusted data curator that is required in the classic "centralized" (global) differential-privacy framework. To the best of our knowledge, this is the first algorithm that successfully ensures both rigorous local differential privacy and learning accuracy. The effectiveness of the proposed algorithm is evaluated using machine learning tasks, including logistic regression on the the "mushrooms" datasets and CNN-based image classification on the "MNIST" and "CIFAR-10" datasets.
翻訳日:2024-08-28 01:17:09 公開日:2024-08-23
# ユークリッド空間における近似を用いたリアルタイム目標認識

Real-time goal recognition using approximations in Euclidean space ( http://arxiv.org/abs/2307.07876v2 )

ライセンス: Link先を確認
Douglas Tesch, Leonardo Rosa Amado, Felipe Meneguzzi, (参考訳) オンラインゴール認識に関する最近の研究は、低可観測性の下でゴールを効率的に推測する一方で、比較的少ない作業は、離散的ドメインと連続的なドメインの両方で機能するオンラインゴール認識に焦点を当てている。 オンラインゴール認識アプローチは、しばしば、新しい観測ごとにプランナーへの繰り返しの呼び出しに依存し、高い計算コストを発生させる。 現実の物理世界は高速移動しているため、連続空間における目標を迅速かつ確実に認識することは、軌道計画問題にとって極めて重要である。 本研究では,個別領域における各目標に対するプランナーへの1回の呼び出し,あるいは連続領域における計算負担を軽減する簡易な動作モデルのいずれかに依存する,効率的なゴール認識手法を開発する。 結果として得られたアプローチは、現在の最先端技術よりもはるかに高速な認識順序のオンラインコンポーネントを実行し、秒以下の認識を必要とするロボティクスアプリケーションに効果的に使用できる最初のオンライン手法となった。

While recent work on online goal recognition efficiently infers goals under low observability, comparatively less work focuses on online goal recognition that works in both discrete and continuous domains. Online goal recognition approaches often rely on repeated calls to the planner at each new observation, incurring high computational costs. Recognizing goals online in continuous space quickly and reliably is critical for any trajectory planning problem since the real physical world is fast-moving, e.g. robot applications. We develop an efficient method for goal recognition that relies either on a single call to the planner for each possible goal in discrete domains or a simplified motion model that reduces the computational burden in continuous ones. The resulting approach performs the online component of recognition orders of magnitude faster than the current state of the art, making it the first online method effectively usable for robotics applications that require sub-second recognition.
翻訳日:2024-08-28 01:07:17 公開日:2024-08-23
# 対人自己検査と安全なサンプリングの不可能性

Impossibility of adversarial self-testing and secure sampling ( http://arxiv.org/abs/2310.12838v2 )

ライセンス: Link先を確認
Akshay Bansal, Atul Singh Arora, Thomas Van Himbeeck, Jamie Sikora, (参考訳) 自己検査とは、空間的に分離されたアリスとボブが古典的な方法で相互作用することで、信頼できない量子デバイスの内部動作を推論するタスクである。 我々は,Alice と Bob が相互に信頼していない課題を検証し,その課題を敵自己テスト(adversarial self-testing)と呼ぶ。 我々は、敵対的な自己テストが安全なサンプリングを意図していることを示します -- 信頼できないアリスとボブが、正直な党の限界が偏っていないことを保証して、共同確率分布からサンプルをサンプリングしたいという、より単純なタスクを紹介します。 二次元量子暗号における可視性の拡張により、これらのタスクがいずれも簡単な設定では不可能であるという簡単な証明を与える。

Self-testing is the task where spatially separated Alice and Bob cooperate to deduce the inner workings of untrusted quantum devices by interacting with them in a classical manner. We examine the task above where Alice and Bob do not trust each other which we call adversarial self-testing. We show that adversarial self-testing implies secure sampling -- a simpler task that we introduce where distrustful Alice and Bob wish to sample from a joint probability distribution with the guarantee that an honest party's marginal is not biased. By extending impossibility results in two-party quantum cryptography, we give a simple proof that both of these tasks are impossible in all but trivial settings.
翻訳日:2024-08-28 00:57:20 公開日:2024-08-23
# Kaczmarzにインスパイアされたニューラルネットワーク波動関数の最適化の高速化

A Kaczmarz-inspired approach to accelerate the optimization of neural network wavefunctions ( http://arxiv.org/abs/2401.10190v2 )

ライセンス: Link先を確認
Gil Goldshlager, Nilin Abrahamsen, Lin Lin, (参考訳) 変分モンテカルロ法を用いて最適化されたニューラルネットワーク波動関数は、原子や小分子の電子構造に対して高精度な結果をもたらすことが示されているが、そのような波動関数を最適化するコストが高いため、より大きなシステムに適用できない。 本稿では,このボトルネックを軽減するために,SPR(Subsampled Projected-Increment Natural Gradient Descent)オプティマイザを提案する。 SPRingは、最近導入された最小ステップ確率再構成オプティマイザ(MinSR)と、線形最小二乗問題を解くための古典的ランダム化カッツマルツ法を組み合わせたものである。 SPRing は MinSR と Kronecker-Factored Approximate Curvature 法 (KFAC) を多数の小原子および分子で比較し,全ての手法の学習速度が最適に調整されていることを実証した。 例えば、酸素原子上では、SPRINGは4万回のトレーニングを繰り返した後に化学的精度を得るが、MinSRとKFACは1万回のトレーニングの後にもそれを行うことができない。

Neural network wavefunctions optimized using the variational Monte Carlo method have been shown to produce highly accurate results for the electronic structure of atoms and small molecules, but the high cost of optimizing such wavefunctions prevents their application to larger systems. We propose the Subsampled Projected-Increment Natural Gradient Descent (SPRING) optimizer to reduce this bottleneck. SPRING combines ideas from the recently introduced minimum-step stochastic reconfiguration optimizer (MinSR) and the classical randomized Kaczmarz method for solving linear least-squares problems. We demonstrate that SPRING outperforms both MinSR and the popular Kronecker-Factored Approximate Curvature method (KFAC) across a number of small atoms and molecules, given that the learning rates of all methods are optimally tuned. For example, on the oxygen atom, SPRING attains chemical accuracy after forty thousand training iterations, whereas both MinSR and KFAC fail to do so even after one hundred thousand iterations.
翻訳日:2024-08-28 00:36:11 公開日:2024-08-23
# 変圧器を用いた決定木アルゴリズムの学習

Learning a Decision Tree Algorithm with Transformers ( http://arxiv.org/abs/2402.03774v2 )

ライセンス: Link先を確認
Yufan Zhuang, Liyuan Liu, Chandan Singh, Jingbo Shang, Jianfeng Gao, (参考訳) 決定木は、特に表データにおいて、解釈可能なまま高い予測性能を達成する能力で有名である。 伝統的に、それらは再帰的なアルゴリズムによって構築され、ツリーの各ノードでデータを分割する。 しかし、局所セグメントに最適化された決定木がグローバルな一般化をもたらすことはないため、良い分割を特定することは困難である。 メタ学習によってトレーニングされたトランスフォーマーベースのモデルであるMetaTreeを導入し、強力な決定木を直接生成する。 具体的には、グリージーな決定木とグローバルに最適化された決定木を多数のデータセットに適合させ、MetaTreeをトレーニングして、強力な一般化性能を実現する木のみを生成する。 このトレーニングにより、MetaTreeはこれらのアルゴリズムをエミュレートし、コンテキストに応じてその戦略をインテリジェントに適応し、より優れた一般化性能を実現することができる。

Decision trees are renowned for their ability to achieve high predictive performance while remaining interpretable, especially on tabular data. Traditionally, they are constructed through recursive algorithms, where they partition the data at every node in a tree. However, identifying a good partition is challenging, as decision trees optimized for local segments may not yield global generalization. To address this, we introduce MetaTree, a transformer-based model trained via meta-learning to directly produce strong decision trees. Specifically, we fit both greedy decision trees and globally optimized decision trees on a large number of datasets, and train MetaTree to produce only the trees that achieve strong generalization performance. This training enables MetaTree to emulate these algorithms and intelligently adapt its strategy according to the context, thereby achieving superior generalization performance.
翻訳日:2024-08-28 00:26:06 公開日:2024-08-23
# 医療時系列表現学習改善のための双方向生成事前学習

Bidirectional Generative Pre-training for Improving Healthcare Time-series Representation Learning ( http://arxiv.org/abs/2402.09558v3 )

ライセンス: Link先を確認
Ziyang Song, Qincheng Lu, He Zhu, David Buckeridge, Yue Li, (参考訳) 分類や回帰といった差別的なタスクに対する時系列表現の学習は、医療分野における長年にわたる課題である。 現在の事前学習方法は、一方向の次トーケン予測またはランダムにマスキングされたトークン予測で制限される。 本稿では, 生体信号と経時的臨床記録を交互変換器層で予測することにより, 生体信号と経時的臨床記録を事前学習する双方向時間生成事前学習型トランス (Bidirectional Timely Generative Pre-trained Transformer, BiTimelyGPT) を提案する。 この事前学習タスクは、時系列のオリジナルの分布とデータ形状を保存する。 さらに、フルランクの前方および後方の注意行列はより表現力のある表現能力を示す。 BiTimelyGPTは、生体信号と経時的臨床記録を用いて、神経機能、疾患診断、生理的兆候を予測する上で優れた性能を示す。 注意熱マップを可視化することにより、事前学習したBiTimelyGPTが、タスクを微調整した後でも、生体信号の時系列配列から識別セグメントを識別できることを観察する。

Learning time-series representations for discriminative tasks, such as classification and regression, has been a long-standing challenge in the healthcare domain. Current pre-training methods are limited in either unidirectional next-token prediction or randomly masked token prediction. We propose a novel architecture called Bidirectional Timely Generative Pre-trained Transformer (BiTimelyGPT), which pre-trains on biosignals and longitudinal clinical records by both next-token and previous-token prediction in alternating transformer layers. This pre-training task preserves original distribution and data shapes of the time-series. Additionally, the full-rank forward and backward attention matrices exhibit more expressive representation capabilities. Using biosignals and longitudinal clinical records, BiTimelyGPT demonstrates superior performance in predicting neurological functionality, disease diagnosis, and physiological signs. By visualizing the attention heatmap, we observe that the pre-trained BiTimelyGPT can identify discriminative segments from biosignal time-series sequences, even more so after fine-tuning on the task.
翻訳日:2024-08-28 00:16:18 公開日:2024-08-23
# 大規模言語モデルを用いた仮説生成

Hypothesis Generation with Large Language Models ( http://arxiv.org/abs/2404.04326v2 )

ライセンス: Link先を確認
Yangqiaoyu Zhou, Haokun Liu, Tejes Srivastava, Hongyuan Mei, Chenhao Tan, (参考訳) 新たな仮説の効果的な生成は、科学的進歩に欠かせない。 これまでのところ、研究者はデータ分析と思考(ユーレカモーメントとしても知られる)に苦しむことによって仮説生成を支えてきた。 本稿では,大言語モデル(LLM)の仮説生成の可能性について検討する。 データに基づく仮説生成(ラベル付き例)に焦点を当てる。 LLMが任意に長いコンテキストを扱えるようにするために、少数の例から初期仮説を生成し、仮説の質を改善するために反復的に更新する。 マルチアームの盗賊にインスパイアされた我々は、更新プロセスにおけるエクスプロイト探索のトレードオフを通知する報酬関数を設計する。 我々のアルゴリズムは、分類タスクにおいて数発のプロンプトよりもはるかに優れた予測性能を実現し、合成データセットで精度を31.7%向上し、3つの実世界のデータセットで13.9%、3.3%、24.9%向上する仮説を生成することができる。 また、2つの挑戦的な現実世界のデータセットにおいて、教師あり学習を12.8%、11.2%で上回った。 さらに、生成した仮説は、人間の検証理論を裏付けるだけでなく、タスクに対する新たな洞察も明らかにする。

Effective generation of novel hypotheses is instrumental to scientific progress. So far, researchers have been the main powerhouse behind hypothesis generation by painstaking data analysis and thinking (also known as the Eureka moment). In this paper, we examine the potential of large language models (LLMs) to generate hypotheses. We focus on hypothesis generation based on data (i.e., labeled examples). To enable LLMs to handle arbitrarily long contexts, we generate initial hypotheses from a small number of examples and then update them iteratively to improve the quality of hypotheses. Inspired by multi-armed bandits, we design a reward function to inform the exploitation-exploration tradeoff in the update process. Our algorithm is able to generate hypotheses that enable much better predictive performance than few-shot prompting in classification tasks, improving accuracy by 31.7% on a synthetic dataset and by 13.9%, 3.3% and, 24.9% on three real-world datasets. We also outperform supervised learning by 12.8% and 11.2% on two challenging real-world datasets. Furthermore, we find that the generated hypotheses not only corroborate human-verified theories but also uncover new insights for the tasks.
翻訳日:2024-08-27 23:56:35 公開日:2024-08-23
# AI安全のための機械的解釈可能性 - レビュー

Mechanistic Interpretability for AI Safety -- A Review ( http://arxiv.org/abs/2404.14082v3 )

ライセンス: Link先を確認
Leonard Bereska, Efstratios Gavves, (参考訳) AIシステムの内部動作を理解することは、価値の整合性と安全性を保証する上で重要である。 ニューラルネットワークが学習した計算機構と表現を人間の理解可能なアルゴリズムや概念にリバースエンジニアリングして、きめ細かい因果的理解を提供する。 ニューラルアクティベーション内の知識を符号化する機能や,その表現と計算に関する仮説などの基礎概念を確立する。 本稿では,モデル行動の因果分解手法を調査し,機械的解釈可能性とAI安全性との関連性を評価する。 我々は、理解、制御、アライメント、能力向上や二重利用の懸念といったリスクの利点について検討する。 スケーラビリティ、自動化、包括的な解釈に関わる課題について検討する。 我々は、複雑なモデルや振る舞いを処理し、ビジョンや強化学習のような領域に拡張するための概念を明確にし、標準を設定し、スケーリングする手法を提唱する。 機械的解釈性は、AIシステムがより強力で精査されるにつれて、破滅的な結果を防ぐのに役立つ。

Understanding AI systems' inner workings is critical for ensuring value alignment and safety. This review explores mechanistic interpretability: reverse engineering the computational mechanisms and representations learned by neural networks into human-understandable algorithms and concepts to provide a granular, causal understanding. We establish foundational concepts such as features encoding knowledge within neural activations and hypotheses about their representation and computation. We survey methodologies for causally dissecting model behaviors and assess the relevance of mechanistic interpretability to AI safety. We examine benefits in understanding, control, alignment, and risks such as capability gains and dual-use concerns. We investigate challenges surrounding scalability, automation, and comprehensive interpretation. We advocate for clarifying concepts, setting standards, and scaling techniques to handle complex models and behaviors and expand to domains such as vision and reinforcement learning. Mechanistic interpretability could help prevent catastrophic outcomes as AI systems become more powerful and inscrutable.
翻訳日:2024-08-27 23:46:51 公開日:2024-08-23
# 因果拡散オートエンコーダ:拡散確率モデルによる対実生成に向けて

Causal Diffusion Autoencoders: Toward Counterfactual Generation via Diffusion Probabilistic Models ( http://arxiv.org/abs/2404.17735v3 )

ライセンス: Link先を確認
Aneesh Komanduri, Chen Zhao, Feng Chen, Xintao Wu, (参考訳) 拡散確率モデル(DPM)は高品質の画像生成における最先端技術となっている。 しかし、DPM は解釈可能な意味論や制御可能な意味論を持たない任意の雑音潜在空間を持つ。 画像サンプルの品質向上のための重要な研究努力は行われているが,拡散モデルを用いた表現制御生成の研究はほとんどない。 具体的には、DPMを用いた因果モデリングと制御可能な反ファクト生成は、未探索領域である。 本研究では,拡散に基づく因果表現学習フレームワークCausalDiffAEを提案する。 我々のキーとなる考え方は、エンコーダを用いて高次元データから高レベルの意味論的因果変数を抽出し、逆拡散を用いて確率的変動をモデル化することである。 本稿では,高次元データを因果関係の潜伏因子にマッピングし,その因果機構をニューラルネットワークを用いてパラメータ化する因果符号化機構を提案する。 因果変数のアンタングル化を強制するために、変分目的を定式化し、先行のラベル情報を利用して潜伏空間を正規化する。 そこで本研究では,DDIMをベースとした疑似事実生成手法を提案する。 最後に,限られたラベル管理シナリオに対処するために,トレーニングデータの一部がラベル付けされていない場合のCausalDiffAEの適用について検討する。 本稿では,CausalDiffAEが不整合空間を学習し,高品質な反ファクト画像を生成することを実証的に示す。

Diffusion probabilistic models (DPMs) have become the state-of-the-art in high-quality image generation. However, DPMs have an arbitrary noisy latent space with no interpretable or controllable semantics. Although there has been significant research effort to improve image sample quality, there is little work on representation-controlled generation using diffusion models. Specifically, causal modeling and controllable counterfactual generation using DPMs is an underexplored area. In this work, we propose CausalDiffAE, a diffusion-based causal representation learning framework to enable counterfactual generation according to a specified causal model. Our key idea is to use an encoder to extract high-level semantically meaningful causal variables from high-dimensional data and model stochastic variation using reverse diffusion. We propose a causal encoding mechanism that maps high-dimensional data to causally related latent factors and parameterize the causal mechanisms among latent factors using neural networks. To enforce the disentanglement of causal variables, we formulate a variational objective and leverage auxiliary label information in a prior to regularize the latent space. We propose a DDIM-based counterfactual generation procedure subject to do-interventions. Finally, to address the limited label supervision scenario, we also study the application of CausalDiffAE when a part of the training data is unlabeled, which also enables granular control over the strength of interventions in generating counterfactuals during inference. We empirically show that CausalDiffAE learns a disentangled latent space and is capable of generating high-quality counterfactual images.
翻訳日:2024-08-27 23:46:51 公開日:2024-08-23
# CALRec:シークエンシャルレコメンデーションのためのジェネレーティブLLMのコントラストアライメント

CALRec: Contrastive Alignment of Generative LLMs for Sequential Recommendation ( http://arxiv.org/abs/2405.02429v2 )

ライセンス: Link先を確認
Yaoyiran Li, Xiang Zhai, Moustafa Alzantot, Keyi Yu, Ivan Vulić, Anna Korhonen, Mohamed Hammad, (参考訳) 行列因数分解法のような従来の推薦システムは、アイテムとユーザの好みの両方を表現するために、共有の密接な埋め込み空間を学習することに集中してきた。 その後、RNN、GRU、最近ではトランスフォーマーといったシーケンスモデルが登場し、シーケンシャルレコメンデーションのタスクに優れています。 このタスクは、ユーザが望むであろう次の項目を予測するために、ユーザの過去のインタラクションに存在するシーケンシャルな構造を理解する必要がある。 様々なタスクにおける大規模言語モデル(LLM)の成功に基づいて、研究者は近年、大量のテキストコーパスで事前訓練されたLLMを用いて、シーケンシャルなレコメンデーションを行っている。 逐次レコメンデーションにLLMを使用するには、ユーザインタラクションの歴史と次の項目のモデルの予測の両方をテキスト形式で表現する。 2つの対照的な損失と言語モデリング損失を混合した2段階のLCMファインタニングフレームワークであるCALRecを提案する。 我々のモデルは、多くの最先端ベースライン(Recall@1では+37%、NDCG@10では+24%)を著しく上回り、系統的アブレーション研究により明らかとなった。 (i)微調整の両段階が重要であり、組み合わせると性能が向上し、 2) 実験対象領域では, コントラストアライメントが有効である。

Traditional recommender systems such as matrix factorization methods have primarily focused on learning a shared dense embedding space to represent both items and user preferences. Subsequently, sequence models such as RNN, GRUs, and, recently, Transformers have emerged and excelled in the task of sequential recommendation. This task requires understanding the sequential structure present in users' historical interactions to predict the next item they may like. Building upon the success of Large Language Models (LLMs) in a variety of tasks, researchers have recently explored using LLMs that are pretrained on vast corpora of text for sequential recommendation. To use LLMs for sequential recommendation, both the history of user interactions and the model's prediction of the next item are expressed in text form. We propose CALRec, a two-stage LLM finetuning framework that finetunes a pretrained LLM in a two-tower fashion using a mixture of two contrastive losses and a language modeling loss: the LLM is first finetuned on a data mixture from multiple domains followed by another round of target domain finetuning. Our model significantly outperforms many state-of-the-art baselines (+37% in Recall@1 and +24% in NDCG@10) and our systematic ablation studies reveal that (i) both stages of finetuning are crucial, and, when combined, we achieve improved performance, and (ii) contrastive alignment is effective among the target domains explored in our experiments.
翻訳日:2024-08-27 23:36:49 公開日:2024-08-23
# ドメインシフト下のモデル選択のためのクラスタリングに基づく検証分割

Clustering-Based Validation Splits for Model Selection under Domain Shift ( http://arxiv.org/abs/2405.19461v2 )

ライセンス: Link先を確認
Andrea Napoli, Paul White, (参考訳) 本稿では,ドメインシフトによるモデル選択の問題について考察する。 分布的ロバストな最適化(DRO)とドメイン適応理論の原理により、トレーニングバリデーション分割は2つの集合間の分布ミスマッチを最大化するべきである。 ミスマッチの尺度としてMMD(maxum mean discrepancy)を採用することにより、分割問題はカーネルk平均クラスタリングに還元されることを示す。 線形プログラミングを利用してスプリットのサイズ、ラベル、および(任意に)グループ分布を制御する制約付きクラスタリングアルゴリズムを示す。 アルゴリズムは追加のメタデータを必要としておらず、収束を保証する。 実験では、ドメイン一般化(DG)と教師なしドメイン適応(UDA)の両方のタスクに対して、さまざまなデータセットとトレーニングアルゴリズムの代替分割戦略を一貫して上回る。 分析はまた、トレーニングと検証セットの間のMDDが、テスト領域の精度と強いランク関連(\rho=0.63$)であることを示し、このアプローチの有効性をさらに裏付けている。

This paper considers the problem of model selection under domain shift. Motivated by principles from distributionally robust optimisation (DRO) and domain adaptation theory, it is proposed that the training-validation split should maximise the distribution mismatch between the two sets. By adopting the maximum mean discrepancy (MMD) as the measure of mismatch, it is shown that the partitioning problem reduces to kernel k-means clustering. A constrained clustering algorithm, which leverages linear programming to control the size, label, and (optionally) group distributions of the splits, is presented. The algorithm does not require additional metadata, and comes with convergence guarantees. In experiments, the technique consistently outperforms alternative splitting strategies across a range of datasets and training algorithms, for both domain generalisation (DG) and unsupervised domain adaptation (UDA) tasks. Analysis also shows the MMD between the training and validation sets to be strongly rank-correlated ($\rho=0.63$) with test domain accuracy, further substantiating the validity of this approach.
翻訳日:2024-08-27 23:17:21 公開日:2024-08-23
# 撮影ガウシアン:被写界深度を持つリアルタイムHDR放射場

Cinematic Gaussians: Real-Time HDR Radiance Fields with Depth of Field ( http://arxiv.org/abs/2406.07329v3 )

ライセンス: Link先を確認
Chao Wang, Krzysztof Wolski, Bernhard Kerbl, Ana Serrano, Mojtaba Bemana, Hans-Peter Seidel, Karol Myszkowski, Thomas Leimkühler, (参考訳) 放射場法は、多視点写真から複雑なシーンを再構成する最先端の手法である。 第一に、それらは一般的に低ダイナミックレンジ(LDR)のシーンを表しており、均等に照らされた環境に制限され、没入感のある視聴体験を妨げる。 第二に、すべてのシーン要素が入力画像に集中していると仮定したピンホールカメラモデルへの依存が、現実的な課題を示し、新規視点合成において再焦点付けを複雑にする。 これらの制約に対処するために,高ダイナミックレンジ(HDR)放射場を再構成するための入力として,露光時間,開口度,焦点距離の異なるシーンの多視点LDR画像を利用する3次元ガウス散乱に基づく軽量な手法を提案する。 薄膜カメラモデルとトネマッピングモジュールをベースとしたガウシアンの解析的畳み込みを取り入れることで, フレキシブルリフォーカス機能を備えたHDRコンテンツのレンダリングを可能にする。 我々は,HDRとフィールド深度を併用することで,映像のリアルタイムレンダリングが実現し,最先端技術を上回ることを実証した。

Radiance field methods represent the state of the art in reconstructing complex scenes from multi-view photos. However, these reconstructions often suffer from one or both of the following limitations: First, they typically represent scenes in low dynamic range (LDR), which restricts their use to evenly lit environments and hinders immersive viewing experiences. Secondly, their reliance on a pinhole camera model, assuming all scene elements are in focus in the input images, presents practical challenges and complicates refocusing during novel-view synthesis. Addressing these limitations, we present a lightweight method based on 3D Gaussian Splatting that utilizes multi-view LDR images of a scene with varying exposure times, apertures, and focus distances as input to reconstruct a high-dynamic-range (HDR) radiance field. By incorporating analytical convolutions of Gaussians based on a thin-lens camera model as well as a tonemapping module, our reconstructions enable the rendering of HDR content with flexible refocusing capabilities. We demonstrate that our combined treatment of HDR and depth of field facilitates real-time cinematic rendering, outperforming the state of the art.
翻訳日:2024-08-27 23:07:37 公開日:2024-08-23
# CoSQA+: マッチングコードによるコード検索データセットの強化

CoSQA+: Enhancing Code Search Dataset with Matching Code ( http://arxiv.org/abs/2406.11589v2 )

ライセンス: Link先を確認
Jing Gong, Yanghui Wu, Linxi Liang, Zibin Zheng, Yanlin Wang, (参考訳) セマンティックコード検索(Semantic code search)は、ある自然言語クエリにマッチするコードを取得することで、ソフトウェア工学における生産性を向上させるための重要なタスクである。 既存のコード検索データセットには問題があり、非現実的なクエリを使用するか、ミスマッチしたコードを使用するか、通常は1対1のクエリコードペアリングを使用する。 本稿では、高品質なクエリ(CoSQAから再利用可能な)と複数の適切なコードとをペアリングするCoSQA+を紹介する。 さまざまなソースからコード候補を収集し、これらのコードとクエリをペアリングすることで、候補ペアを形成する。 大規模言語モデル(LLM)のパワーを利用して、適切なマッチのないクエリに対してペアアノテーション、フィルタリング、コード生成を自動化する。 広範な実験を通じて、CoSQA+はCoSQAよりも優れた品質を示している。 CoSQA+で訓練されたモデルは性能が向上した。 さらに,1対N符号探索性能を評価するために,MMRR(Mean Multi-choice Reciprocal Rank)を提案する。 私たちはhttps://github.com/DeepSoftwareAnalytics/CoSQA_Plusでコードとデータを提供しています。

Semantic code search, retrieving code that matches a given natural language query, is an important task to improve productivity in software engineering. Existing code search datasets are problematic: either using unrealistic queries, or with mismatched codes, and typically using one-to-one query-code pairing, which fails to reflect the reality that a query might have multiple valid code matches. This paper introduces CoSQA+, pairing high-quality queries (reused from CoSQA) with multiple suitable codes. We collect code candidates from diverse sources and form candidate pairs by pairing queries with these codes. Utilizing the power of large language models (LLMs), we automate pair annotation, filtering, and code generation for queries without suitable matches. Through extensive experiments, CoSQA+ has demonstrated superior quality over CoSQA. Models trained on CoSQA+ exhibit improved performance. Furthermore, we propose a new metric Mean Multi-choice Reciprocal Rank (MMRR), to assess one-to-N code search performance. We provide the code and data at https://github.com/DeepSoftwareAnalytics/CoSQA_Plus.
翻訳日:2024-08-27 23:07:37 公開日:2024-08-23
# バイオマーカーとしての歩行パターン:スコリオーシスの分類のためのビデオベースアプローチ

Gait Patterns as Biomarkers: A Video-Based Approach for Classifying Scoliosis ( http://arxiv.org/abs/2407.05726v3 )

ライセンス: Link先を確認
Zirui Zhou, Junhao Liang, Zizhao Peng, Chao Fan, Fengwei An, Shiqi Yu, (参考訳) スコリオーシスは、特に青年期において、早期発見が効果的な治療に不可欠である重要な診断上の課題を呈する。 身体検査や放射線検査に依存する従来の診断・追跡法は、臨床専門知識の必要性と放射線被曝のリスクにより限界に直面し、早期検診に広く使用されることを制限する。 そこで本稿では,歩行分析を用いた新しいビデオベース非侵襲的分類法を提案し,これらの制限を効果的に回避する。 この研究は、ビデオベースのスコリオーシス分類に特化して設計された最初の大規模データセットであるScooliosis1Kを提示する。 このデータセットを活用して、実世界のデータの複雑さを扱う上で課題に直面した初期モデルであるScoNetを開発した。 これにより、マルチタスク学習を取り入れた拡張モデルであるScoNet-MTが開発された。 以上の結果から,歩行は側頭葉症の非侵襲的バイオマーカーとして機能し,深層学習によるスクリーニングの実践に革命をもたらし,非侵襲的診断手法の先駆けとなる可能性が示唆された。 データセットとコードはhttps://zhouzi180.github.io/Scoliosis1K/で公開されている。

Scoliosis presents significant diagnostic challenges, particularly in adolescents, where early detection is crucial for effective treatment. Traditional diagnostic and follow-up methods, which rely on physical examinations and radiography, face limitations due to the need for clinical expertise and the risk of radiation exposure, thus restricting their use for widespread early screening. In response, we introduce a novel video-based, non-invasive method for scoliosis classification using gait analysis, effectively circumventing these limitations. This study presents Scoliosis1K, the first large-scale dataset specifically designed for video-based scoliosis classification, encompassing over one thousand adolescents. Leveraging this dataset, we developed ScoNet, an initial model that faced challenges in handling the complexities of real-world data. This led to the development of ScoNet-MT, an enhanced model incorporating multi-task learning, which demonstrates promising diagnostic accuracy for practical applications. Our findings demonstrate that gait can serve as a non-invasive biomarker for scoliosis, revolutionizing screening practices through deep learning and setting a precedent for non-invasive diagnostic methodologies. The dataset and code are publicly available at https://zhouzi180.github.io/Scoliosis1K/.
翻訳日:2024-08-27 22:47:47 公開日:2024-08-23
# 量子フーリエ変換に基づく多重制御単一量子ユニタリゲート

Multi-controlled single-qubit unitary gates based on the quantum Fourier transform ( http://arxiv.org/abs/2408.00935v2 )

ライセンス: Link先を確認
Vladimir V. Arsoski, (参考訳) マルチコントロール(MC)ユニタリ(U)ゲートは量子アルゴリズムや回路で広く使われている。 MCUゲートの非要素$C-R_x$と$C-U^{1/2^{m-1}}$ゲートは、実装回路の深さの線形関数となる。 我々のアプローチは、アダマールと制御相ゲートからなる量子フーリエ変換(QFT)を用いたマルチコントロールX(MCX)ゲートの2つの一般化に基づいている。 真の量子コンピュータで使用されるネイティブゲートセットでは、制御相ゲートの分解は$C-R_x$の2倍の複雑さであり、QFTから導出される回路のおよそ2倍の利点をもたらす。 QFT-MCXの最初の一般化は、ターゲット量子ビットに作用する制御ゲートの変更に基づいている。 これらのゲートは最も複雑であり、最先端の回路でも使用されている。 第2の一般化はZYZ分解に依存し、分解に必要な2つのマルチコントロールXゲートを実装するために1つの拡張QFTベースの回路のみを使用する。 この回路の複雑さはQFTベースのMCXとほぼ等しいため、我々のMCU実装は既存のどの回路よりも優れている。 最もよく知られた最適化アルゴリズムの優位性は、真の量子デバイスで実行するために組み立てられたトランスパイル回路を比較することで示される。 私たちの実装では、最も効率的なものに比べて、基本ゲートの約半分が使われており、結果としてエラーが小さくなる可能性があることに注意する必要がある。 さらに,その実装の1つに,最先端の線形深度分解回路(LDD)のMCU回路を単純化するための最適化手順を詳述した。

Multi-controlled (MC) unitary (U) gates are widely employed in quantum algorithms and circuits. Few state-of-the-art decompositions of MCU gates use non-elementary $C-R_x$ and $C-U^{1/2^{m-1}}$ gates resulting in a linear function for the depths of an implemented circuit on the number of these gates. Our approach is based on two generalizations of the multi-controlled X (MCX) gate that uses the quantum Fourier transform (QFT) comprised of Hadamard and controlled-phase gates. For the native gate set used in a genuine quantum computer, the decomposition of the controlled-phase gate is twice as less complex as $C-R_x$, which can result in an approximately double advantage of circuits derived from the QFT. The first generalization of QFT-MCX is based on altering the controlled gates acting on the target qubit. These gates are the most complex and are also used in the state-of-the-art circuits. The second generalization relies on the ZYZ decomposition and uses only one extended QFT-based circuit to implement the two multi-controlled X gates needed for the decomposition. Since the complexities of this circuit are approximately equal to the QFT-based MCX, our MCU implementation is more advanced than any known existing. The supremacy over the best-known optimized algorithm will be demonstrated by comparing transpiled circuits assembled for execution in a genuine quantum device. One may note that our implementations use approximately half the number of elementary gates compared to the most efficient one, potentially resulting in a smaller error. Additionally, we elaborated optimization steps to simplify the state-of-the-art linear-depth decomposition (LDD) MCU circuit to one of our implementations.
翻訳日:2024-08-27 20:50:26 公開日:2024-08-23
# 超伝導量子情報応用のための低損失Al/Si/Alパラレルプレートコンデンサの作製と評価

Fabrication and characterization of low-loss Al/Si/Al parallel plate capacitors for superconducting quantum information applications ( http://arxiv.org/abs/2408.01369v2 )

ライセンス: Link先を確認
Anthony McFadden, Aranya Goswami, Tongyu Zhao, Teun van Schijndel, Trevyn F. Q. Larson, Sudhir Sahu, Stephen Gill, Florent Lecocq, Raymond Simmonds, Chris Palmstrøm, (参考訳) 超伝導回路の密度の増大は、コンパクトな部品を必要とするが、超伝導体ベースのコンデンサは、表面や界面の損失により寸法が小さくなるため、一般的には悪化する。 ここでは、アルミニウムで接触した結晶状シリコンフィンからなるパラレルプレートコンデンサが、積層素子共振器とトランモン量子ビットの性能を評価することにより、超伝導回路での使用に有望な技術であることが示されている。 高アスペクト比SiフィンキャパシタをSi(110)基板の異方性湿式エッチングおよびアルミニウム金属化法により作製した。 単結晶Siコンデンサは、それぞれ、リソグラフィーパターンのアルミニウムインダクタと従来の$Al/AlO_x/Al$ジョセフソン接合を用いて、積層素子共振器とトランスモンに組み込まれている。 これらの装置のマイクロ波特性は,500k以上およびqubit$T_1$が25$\mu$s以上である積層素子共振器の低電力内部品質係数を有する超電導パラレルプレートコンデンサの最先端性能を示唆している。 これらの結果から,Si-Finsは低損失,小型,超伝導系キャパシタの最小容量を必要とするアプリケーションにとって有望な技術であることが示唆された。

Increasing the density of superconducting circuits requires compact components, however, superconductor-based capacitors typically perform worse as dimensions are reduced due to loss at surfaces and interfaces. Here, parallel plate capacitors composed of aluminum-contacted, crystalline silicon fins are shown to be a promising technology for use in superconducting circuits by evaluating the performance of lumped element resonators and transmon qubits. High aspect ratio Si-fin capacitors having widths below $300nm$ with an approximate total height of 3$\mu$m are fabricated using anisotropic wet etching of Si(110) substrates followed by aluminum metallization. The single-crystal Si capacitors are incorporated in lumped element resonators and transmons by shunting them with lithographically patterned aluminum inductors and conventional $Al/AlO_x/Al$ Josephson junctions respectively. Microwave characterization of these devices suggests state-of-the-art performance for superconducting parallel plate capacitors with low power internal quality factor of lumped element resonators greater than 500k and qubit $T_1$ times greater than 25$\mu$s. These results suggest that Si-Fins are a promising technology for applications that require low loss, compact, superconductor-based capacitors with minimal stray capacitance.
翻訳日:2024-08-27 20:40:24 公開日:2024-08-23
# UAVによる災害シナリオ検出データセットの総合的分析とベンチマーク

UAV-Enhanced Combination to Application: Comprehensive Analysis and Benchmarking of a Human Detection Dataset for Disaster Scenarios ( http://arxiv.org/abs/2408.04922v2 )

ライセンス: Link先を確認
Ragib Amin Nihal, Benjamin Yen, Katsutoshi Itoyama, Kazuhiro Nakadai, (参考訳) 無人航空機(UAV)は,捜索救助活動(SAR)に革命をもたらしたが,機械学習モデルを訓練するための特殊な人検出データセットが欠如していることは大きな課題であり,このギャップに対処するために,UAVが捉えた災害現場に人間のポーズをオーバーレイして合成したCombination to Application(C2A)データセットを提案する。 C2Aデータセットで微調整されたモデルは、最先端検出モデルによる広範囲な実験により、一般的な航空データセットで事前訓練されたモデルと比較して、大幅な性能向上を示すことを示した。 さらに,C2Aデータセットと一般の人間のデータセットを組み合わせることの重要性を強調し,様々なシナリオにおける最適な性能と一般化を実現する。 このことは、SAR操作の有効性を高めるために、調整されたデータセットが必要であることを指摘する。 私たちのコントリビューションには、データセット作成パイプラインの開発や、災害シナリオの深刻度を評価するために、さまざまな人間のポーズと災害現場情報の統合も含まれています。 我々の研究は、SAR操作が最も現実的で効果的なAI支援による介入の恩恵を受けることを保証するために、今後の発展を提唱する。

Unmanned aerial vehicles (UAVs) have revolutionized search and rescue (SAR) operations, but the lack of specialized human detection datasets for training machine learning models poses a significant challenge.To address this gap, this paper introduces the Combination to Application (C2A) dataset, synthesized by overlaying human poses onto UAV-captured disaster scenes. Through extensive experimentation with state-of-the-art detection models, we demonstrate that models fine-tuned on the C2A dataset exhibit substantial performance improvements compared to those pre-trained on generic aerial datasets. Furthermore, we highlight the importance of combining the C2A dataset with general human datasets to achieve optimal performance and generalization across various scenarios. This points out the crucial need for a tailored dataset to enhance the effectiveness of SAR operations. Our contributions also include developing dataset creation pipeline and integrating diverse human poses and disaster scenes information to assess the severity of disaster scenarios. Our findings advocate for future developments, to ensure that SAR operations benefit from the most realistic and effective AI-assisted interventions possible.
翻訳日:2024-08-27 20:40:24 公開日:2024-08-23
# SIn-NeRF2NeRF: セグメンテーションと塗布による3次元シーンの編集

SIn-NeRF2NeRF: Editing 3D Scenes with Instructions through Segmentation and Inpainting ( http://arxiv.org/abs/2408.13285v1 )

ライセンス: Link先を確認
Jiseung Hong, Changmin Lee, Gyusang Yu, (参考訳) TL;DR 3Dオブジェクトを背景シーンから切り離して選択的に編集する。 Instruct-NeRF2NeRF(in2n)は、テキストプロンプトを用いてNeRF(Neural Radiance Field)からなる3Dシーンの編集を可能にする有望な方法である。 しかし、縮小、スケーリング、背景と物体の両方を同時に移動するような幾何学的な修正を行うことは困難である。 本研究では,3次元シーン内におけるオブジェクトの幾何学的変化を,シーンから分離したオブジェクトを選択的に編集することで実現する。 対象のセグメンテーションと背景のインペイントを行い、3次元空間内における乱れを自由に縮小または移動させる様々な例を示す。

TL;DR Perform 3D object editing selectively by disentangling it from the background scene. Instruct-NeRF2NeRF (in2n) is a promising method that enables editing of 3D scenes composed of Neural Radiance Field (NeRF) using text prompts. However, it is challenging to perform geometrical modifications such as shrinking, scaling, or moving on both the background and object simultaneously. In this project, we enable geometrical changes of objects within the 3D scene by selectively editing the object after separating it from the scene. We perform object segmentation and background inpainting respectively, and demonstrate various examples of freely resizing or moving disentangled objects within the three-dimensional space.
翻訳日:2024-08-27 20:08:51 公開日:2024-08-23
# 量子情報のスクランブルと絡み合い:エレガントな数学的接続

Quantum Information Scrambling and Entanglement: An Elegant Mathematical Connection ( http://arxiv.org/abs/2408.13286v1 )

ライセンス: Link先を確認
Kapil K. Sharma, Rishikant Rajdeepak, Ashok Kumar, Prasanta K. Panigrahi, (参考訳) 様々な量子系で衝突する量子情報の挙動を研究することは、研究の活発な領域である。 最近、シャーマら (K.K. Sharma, V.P Gerdt, Quantum Inf. Process 20, 195 (2021)) は、非熱状態における量子情報スクランブル (QIS) と二部構造エンタングルメントの間の数学的関係を示した。 本研究では、この数学的接続をエレガントに一般化し、X状態、非最大絡み合うベル状態、ヴェルナー状態においてそのような接続を研究する。

Studying the behavior of quantum information scrambling in various quantum systems is an active area of research. Recently, Sharma et al. [K.K. Sharma, V.P Gerdt, Quantum Inf. Process 20, 195 (2021)] have shown the mathematical connection between quantum information scrambling (QIS) and bipartite entanglement in non-thermal states. In the present work, we elegantly generalize this mathematical connection and study such connections in X-states, non-maximally entangled Bell states, and Werner states
翻訳日:2024-08-27 20:08:51 公開日:2024-08-23
# ControlNetを用いた抽象的アート解釈

Abstract Art Interpretation Using ControlNet ( http://arxiv.org/abs/2408.13287v1 )

ライセンス: Link先を確認
Rishabh Srivastava, Addrish Roy, (参考訳) 本研究は,抽象芸術解釈とテキスト・ツー・イメージ合成の融合に着目し,テキスト・プロンプトのみで画像合成の正確な空間制御を実現するという課題に対処するものである。 ControlNetの能力を活用して、ユーザがより細かい合成プロセスの制御を行えるようにし、合成画像のさらなる操作を可能にします。 抽象画に見られるミニマリスト形式に触発されて、三角形のような幾何学的原始的要素から作られた新しい条件を導入する。

Our study delves into the fusion of abstract art interpretation and text-to-image synthesis, addressing the challenge of achieving precise spatial control over image composition solely through textual prompts. Leveraging the capabilities of ControlNet, we empower users with finer control over the synthesis process, enabling enhanced manipulation of synthesized imagery. Inspired by the minimalist forms found in abstract artworks, we introduce a novel condition crafted from geometric primitives such as triangles.
翻訳日:2024-08-27 20:08:51 公開日:2024-08-23
# 食道扁平上皮癌の生存予測のためのマルチモーダル中間機能干渉オートエンコーダ

Multi-modal Intermediate Feature Interaction AutoEncoder for Overall Survival Prediction of Esophageal Squamous Cell Cancer ( http://arxiv.org/abs/2408.13290v1 )

ライセンス: Link先を確認
Chengyu Wu, Yatao Zhang, Yaqi Wang, Qifeng Wang, Shuai Wang, (参考訳) 食道扁平上皮癌(ESCC)の生存予測は、医師が患者の状態や治療計画を評価する上で重要である。 近年,多モード深層学習の応用と開発が注目されている。 しかし, クロスモダリティ間の関係性は, モデルの性能を損なう可能性があり, 従来の研究では明らかにされていない。 さらに、異なるモーダル特徴表現間の固有の意味的ギャップも無視される。 本研究では,ESCCの生存率を予測するための,新しいオートエンコーダに基づくディープラーニングモデルを提案する。 マルチモーダルな予後関連機能強化とモデリング能力向上のための2つの新しいモジュールが設計された。 さらに,マルチモーダル特徴表現をより整合させるために,新たな共同損失が提案された。 比較およびアブレーション実験により,本モデルは識別能力,リスク階層化,提案モジュールの有効性の観点から,良好な結果が得られた。

Survival prediction for esophageal squamous cell cancer (ESCC) is crucial for doctors to assess a patient's condition and tailor treatment plans. The application and development of multi-modal deep learning in this field have attracted attention in recent years. However, the prognostically relevant features between cross-modalities have not been further explored in previous studies, which could hinder the performance of the model. Furthermore, the inherent semantic gap between different modal feature representations is also ignored. In this work, we propose a novel autoencoder-based deep learning model to predict the overall survival of the ESCC. Two novel modules were designed for multi-modal prognosis-related feature reinforcement and modeling ability enhancement. In addition, a novel joint loss was proposed to make the multi-modal feature representations more aligned. Comparison and ablation experiments demonstrated that our model can achieve satisfactory results in terms of discriminative ability, risk stratification, and the effectiveness of the proposed modules.
翻訳日:2024-08-27 20:08:51 公開日:2024-08-23
# ニューロン間の類似性を考慮したディープニューラルネットワークの育成

Growing Deep Neural Network Considering with Similarity between Neurons ( http://arxiv.org/abs/2408.13291v1 )

ライセンス: Link先を確認
Taigo Sakai, Kazuhiro Hotta, (参考訳) ディープラーニングは、人間の脳にインスパイアされたニューラルネットワークを通じて、画像認識タスクに優れています。 しかし, 予測精度を向上させるための大規模モデルの必要性は, 微調整, 知識蒸留, プルーニングといった従来の手法には, 潜在的な精度低下のような限界がある。 ニューロン形成が成体化し続けるヒト神経新生からインスピレーションを得て、訓練期間中にコンパクトモデルにおいてニューロン数を徐々に増加させる新しいアプローチを探索し、計算コストを効果的に管理する。 本稿では,ニューロン類似性分布に基づく制約を導入することにより,特徴抽出バイアスと神経冗長性を低減する手法を提案する。 このアプローチは、新しいニューロンにおける効率的な学習を促進するだけでなく、与えられたタスクに対する特徴抽出の関連性を高める。 CIFAR-10とCIFAR-100データセットの結果,精度が向上した。 これらの結果から,本手法が意思決定プロセスに応用できる可能性が示唆された。

Deep learning has excelled in image recognition tasks through neural networks inspired by the human brain. However, the necessity for large models to improve prediction accuracy introduces significant computational demands and extended training times.Conventional methods such as fine-tuning, knowledge distillation, and pruning have the limitations like potential accuracy drops. Drawing inspiration from human neurogenesis, where neuron formation continues into adulthood, we explore a novel approach of progressively increasing neuron numbers in compact models during training phases, thereby managing computational costs effectively. We propose a method that reduces feature extraction biases and neuronal redundancy by introducing constraints based on neuron similarity distributions. This approach not only fosters efficient learning in new neurons but also enhances feature extraction relevancy for given tasks. Results on CIFAR-10 and CIFAR-100 datasets demonstrated accuracy improvement, and our method pays more attention to whole object to be classified in comparison with conventional method through Grad-CAM visualizations. These results suggest that our method's potential to decision-making processes.
翻訳日:2024-08-27 20:08:51 公開日:2024-08-23
# 高精度かつ信頼性の高い交通予測のための因果的時空間多重グラフ畳み込みネットワーク

Causally-Aware Spatio-Temporal Multi-Graph Convolution Network for Accurate and Reliable Traffic Prediction ( http://arxiv.org/abs/2408.13293v1 )

ライセンス: Link先を確認
Pingping Dong, Xiao-Lin Wang, Indranil Bose, Kam K. H. Ng, Xiaoning Zhang, Xiaoge Zhang, (参考訳) 正確で信頼性の高い予測は、幅広い応用に重大な影響を与える。 本研究では,高精度かつ信頼性の高い予測を行うために開発された高度な深層学習モデルを示すために,時空間学習問題-トラヒック予測-の事例に焦点を当てた。 交通予測の大幅な進歩にもかかわらず、予測性能を向上させるために、暗黙的な交通パターンと暗黙的な交通パターンの両方を同時に組み込んだ研究が限られている。 一方、交通状態の変動性の性質は、統計的に原則化された方法でモデル予測の不確かさを定量化する必要があるが、現存する研究は、その実際の真理を含む可能性を反映して、信頼区間の統計的妥当性を証明可能な保証を与えていない。 本稿では,大規模トラフィックデータから暗黙的トラフィックパターンを検出する動的因果構造学習,時空間依存を学習するための因果的時空間多重グラフ畳み込みネットワーク(CASTMGCN),不確実性定量化のための共形予測という,3つの主要成分を活用するエンドツーエンドトラフィック予測フレームワークを提案する。 CASTMGCNは、交通ネットワークの異なる重要な側面を特徴付けるいくつかのグラフと、道路ネットワークにおける外因性要因の影響を捉える補助グラフを融合する。 このことから, 時空間データに適した共形予測手法が開発され, 様々な予測地平線上でのノード単位の交通予測の不確かさの定量化が図られた。 2つの実世界の交通データセットによる実験結果から,提案手法は予測精度においていくつかの最先端モデルよりも優れており,また,適用範囲の統計的妥当性を厳密に満たしつつ,他の手法よりも効率的な予測領域を生成する。

Accurate and reliable prediction has profound implications to a wide range of applications. In this study, we focus on an instance of spatio-temporal learning problem--traffic prediction--to demonstrate an advanced deep learning model developed for making accurate and reliable forecast. Despite the significant progress in traffic prediction, limited studies have incorporated both explicit and implicit traffic patterns simultaneously to improve prediction performance. Meanwhile, the variability nature of traffic states necessitates quantifying the uncertainty of model predictions in a statistically principled way; however, extant studies offer no provable guarantee on the statistical validity of confidence intervals in reflecting its actual likelihood of containing the ground truth. In this paper, we propose an end-to-end traffic prediction framework that leverages three primary components to generate accurate and reliable traffic predictions: dynamic causal structure learning for discovering implicit traffic patterns from massive traffic data, causally-aware spatio-temporal multi-graph convolution network (CASTMGCN) for learning spatio-temporal dependencies, and conformal prediction for uncertainty quantification. CASTMGCN fuses several graphs that characterize different important aspects of traffic networks and an auxiliary graph that captures the effect of exogenous factors on the road network. On this basis, a conformal prediction approach tailored to spatio-temporal data is further developed for quantifying the uncertainty in node-wise traffic predictions over varying prediction horizons. Experimental results on two real-world traffic datasets demonstrate that the proposed method outperforms several state-of-the-art models in prediction accuracy; moreover, it generates more efficient prediction regions than other methods while strictly satisfying the statistical validity in coverage.
翻訳日:2024-08-27 20:08:51 公開日:2024-08-23
# 機械学習に基づくMPCを用いたエネルギー最適化のためのIoTフレームワーク

An IoT Framework for Building Energy Optimization Using Machine Learning-based MPC ( http://arxiv.org/abs/2408.13294v1 )

ライセンス: Link先を確認
Aryan Morteza, Hosein K. Nazari, Peyman Pahlevani, (参考訳) 本研究では,モノのインターネット(IoT)フレームワークを用いてエアハンドリングユニット(AHU)システムを制御するために,機械学習に基づくモデル予測制御(MPC)アプローチを提案する。 提案フレームワークはニューラルネットワーク(ANN)を用いて,建設情報や乱れを考慮した動的線形熱モデルパラメータをリアルタイムで提供し,AHUシステムの実用的MPCを容易にする。 提案フレームワークでは,AHUを最小限に使用することで,熱環境を個別のニーズに合わせたカスタマイズが可能なクローズドループ制御システムのための新しいセットポイントを確立することができる。 実験結果から,機械学習ベースのMPC-IoTフレームワークのコスト効果を実証し,高いユーザ満足度を維持しつつ,クロックベースの手動制御器と比較して57.59パーセントの消費電力削減を実現した。 提案手法は,建築情報に制限のあるレガシシステムにおいても,優れた柔軟性と有効性を提供し,既存の構造体におけるエネルギー効率とユーザ快適性を高めるための実用的で価値のあるソリューションである。

This study proposes a machine learning-based Model Predictive Control (MPC) approach for controlling Air Handling Unit (AHU) systems by employing an Internet of Things (IoT) framework. The proposed framework utilizes an Artificial Neural Network (ANN) to provide dynamic-linear thermal model parameters considering building information and disturbances in real time, thereby facilitating the practical MPC of the AHU system. The proposed framework allows users to establish new setpoints for a closed-loop control system, enabling customization of the thermal environment to meet individual needs with minimal use of the AHU. The experimental results demonstrate the cost benefits of the proposed machine-learning-based MPC-IoT framework, achieving a 57.59\% reduction in electricity consumption compared with a clock-based manual controller while maintaining a high level of user satisfaction. The proposed framework offers remarkable flexibility and effectiveness, even in legacy systems with limited building information, making it a pragmatic and valuable solution for enhancing the energy efficiency and user comfort in pre-existing structures.
翻訳日:2024-08-27 20:08:51 公開日:2024-08-23
# エクイティ中心の公衆衛生決定のための機械学習の公正性を特徴付けるバイアスと予測指標の探索-ナラティブレビュー

Exploring Bias and Prediction Metrics to Characterise the Fairness of Machine Learning for Equity-Centered Public Health Decision-Making: A Narrative Review ( http://arxiv.org/abs/2408.13295v1 )

ライセンス: Link先を確認
Shaina Raza, Arash Shaban-Nejad, Elham Dolatabadi, Hiroshi Mamiya, (参考訳) 背景: 機械学習(ML)の急速な進歩は、公衆衛生研究、監視、意思決定を強化する新しい機会を表している。 しかし、MLの公衆衛生適用によって生じるアルゴリズムバイアス、すなわち予測された人口健康結果の体系的なエラーに対する包括的理解が欠如している。 この物語レビューの目的は、これらのバイアスを評価するために、MLが生み出すバイアスの種類と定量的なメトリクスを調べることである。 方法: PubMed, MEDLINE, IEEE (Institute of Electrical and Electronics Engineers), ACM (Association for Computing Machinery) Digital Library, Science Direct, Springer Natureの検索を行った。 我々は,2008年から2023年にかけて英語で出版されたML領域と公衆および人口の健康状態の指標として,バイアスの種類や指標を記述した研究をキーワードとして用いた。 結果:72項目が包括的基準を満たした。 私たちのレビューでは、これらのバイアスを株式の観点から評価するために、一般的に説明されるバイアスの種類と量的指標を特定しました。 結論: このレビューは、エクイティの観点から、公衆衛生に関するMLの評価フレームワークの形式化に役立ちます。

Background: The rapid advancement of Machine Learning (ML) represents novel opportunities to enhance public health research, surveillance, and decision-making. However, there is a lack of comprehensive understanding of algorithmic bias -- systematic errors in predicted population health outcomes -- resulting from the public health application of ML. The objective of this narrative review is to explore the types of bias generated by ML and quantitative metrics to assess these biases. Methods: We performed search on PubMed, MEDLINE, IEEE (Institute of Electrical and Electronics Engineers), ACM (Association for Computing Machinery) Digital Library, Science Direct, and Springer Nature. We used keywords to identify studies describing types of bias and metrics to measure these in the domain of ML and public and population health published in English between 2008 and 2023, inclusive. Results: A total of 72 articles met the inclusion criteria. Our review identified the commonly described types of bias and quantitative metrics to assess these biases from an equity perspective. Conclusion: The review will help formalize the evaluation framework for ML on public health from an equity perspective.
翻訳日:2024-08-27 20:08:51 公開日:2024-08-23
# 基礎からブレークスルーまで:技術・研究・ベストプラクティス・応用研究課題・機会の抜粋

The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities ( http://arxiv.org/abs/2408.13296v1 )

ライセンス: Link先を確認
Venkatesh Balavadhani Parthasarathy, Ahtsham Zafar, Aafaq Khan, Arsalan Shahid, (参考訳) 本報告では,Large Language Models (LLMs) の微調整について検討し,理論的な洞察と実践的応用を統合する。 従来の自然言語処理(NLP)モデルから、AIにおける彼らの重要な役割まで、LLMの歴史的進化を概説している。 教師なし、教師なし、命令ベースのアプローチを含む微調整手法の比較は、異なるタスクに適用可能であることを強調している。 このレポートでは、データ準備、モデル初期化、ハイパーパラメータチューニング、モデル展開を微調整するための構造化された7段階パイプラインを紹介している。 不均衡なデータセットと最適化技術の管理に重点を置いている。 計算効率と性能のバランスをとるために,ローランド適応 (LoRA) やハーフファインチューニング (Half Fine-Tuning) のようなパラメータ効率の手法を検討した。 メモリファインチューニング、Mixture of Experts(MoE)、Mixture of Agents(MoA)といった高度な技術は、専門的なネットワークとマルチエージェントのコラボレーションの活用に有効である。 また,LLMと人間の嗜好を一致させるPPO(Pximal Policy Optimization)やDPO(Direct Preference Optimization)といった新しいアプローチと,プルーニングとルーティングの最適化を併用して効率を向上する手法についても検討した。 さらなるセクションでは、検証フレームワーク、デプロイ後の監視、推論最適化について、分散およびクラウドベースのプラットフォームにLLMをデプロイすることに注目している。 マルチモーダルLLM、オーディオと音声の微調整、スケーラビリティ、プライバシ、説明責任などに関わる課題にも対処する。 本報告は, LLMの微調整を行う研究者や実践者に対して, 進化途上の景観における実用的な知見を提供する。

This report examines the fine-tuning of Large Language Models (LLMs), integrating theoretical insights with practical applications. It outlines the historical evolution of LLMs from traditional Natural Language Processing (NLP) models to their pivotal role in AI. A comparison of fine-tuning methodologies, including supervised, unsupervised, and instruction-based approaches, highlights their applicability to different tasks. The report introduces a structured seven-stage pipeline for fine-tuning LLMs, spanning data preparation, model initialization, hyperparameter tuning, and model deployment. Emphasis is placed on managing imbalanced datasets and optimization techniques. Parameter-efficient methods like Low-Rank Adaptation (LoRA) and Half Fine-Tuning are explored for balancing computational efficiency with performance. Advanced techniques such as memory fine-tuning, Mixture of Experts (MoE), and Mixture of Agents (MoA) are discussed for leveraging specialized networks and multi-agent collaboration. The report also examines novel approaches like Proximal Policy Optimization (PPO) and Direct Preference Optimization (DPO), which align LLMs with human preferences, alongside pruning and routing optimizations to improve efficiency. Further sections cover validation frameworks, post-deployment monitoring, and inference optimization, with attention to deploying LLMs on distributed and cloud-based platforms. Emerging areas such as multimodal LLMs, fine-tuning for audio and speech, and challenges related to scalability, privacy, and accountability are also addressed. This report offers actionable insights for researchers and practitioners navigating LLM fine-tuning in an evolving landscape.
翻訳日:2024-08-27 20:08:51 公開日:2024-08-23
# ペアワイズ比較法における不整合指標の特性に関する公理化構造の概要と比較

An Overview and Comparison of Axiomatization Structures Regarding Inconsistency Indices' Properties in Pairwise Comparisons Methods ( http://arxiv.org/abs/2408.13297v1 )

ライセンス: Link先を確認
Sangeeta Pant, Anuj Kumar, Jiří Mazurek, (参考訳) 解析階層過程(AHP)の数学的解析は、AHPにおける判断の不整合を測る中心となる、通常不整合指数と呼ばれる数学的関数の開発につながった。 不整合指数は、すべてのペア比較行列(PCM)を実数にマッピングする数学的関数である。 不整合指数は、適切な性質の集合を満たすとき、より信頼できるものとみなすことができる。 そのため、研究コミュニティは不整合指標に対する望ましいルール(公理、性質)のセットを仮定しようと試みてきた。 その後、これらの関数に対する多くの公理的フレームワークが独立して提案されたが、このトピックに関する文献は断片化され、より広範なフレームワークが欠落している。 したがって、この記事の目的は2つある。 まず,過去10年間の不整合指標の公理化の進展を概観する。 第2に、上記の公理構造と今後の研究の方向性を比較し、議論する。

Mathematical analysis of the analytic hierarchy process (AHP) led to the development of a mathematical function, usually called the inconsistency index, which has the center role in measuring the inconsistency of the judgements in AHP. Inconsistency index is a mathematical function which maps every pairwise comparison matrix (PCM) into a real number. An inconsistency index can be considered more trustworthy when it satisfies a set of suitable properties. Therefore, the research community has been trying to postulate a set of desirable rules (axioms, properties) for inconsistency indices. Subsequently, many axiomatic frameworks for these functions have been suggested independently, however, the literature on the topic is fragmented and missing a broader framework. Therefore, the objective of this article is twofold. Firstly, we provide a comprehensive review of the advancements in the axiomatization of inconsistency indices' properties during the last decade. Secondly, we provide a comparison and discussion of the aforementioned axiomatic structures along with directions of the future research.
翻訳日:2024-08-27 20:08:51 公開日:2024-08-23
# 組織的レビュー : 深層学習による肺炎領域検出法

A systematic review: Deep learning-based methods for pneumonia region detection ( http://arxiv.org/abs/2408.13315v1 )

ライセンス: Link先を確認
Xinmei Xu, (参考訳) 肺炎は世界中の子供や成人の死因の1つである。 過去10年間で、診断プロセスの効率と精度を向上させるために、コンピュータ支援型肺炎検出法が開発されている。 これらの手法の中で、ディープラーニングアプローチの効果は他の伝統的な機械学習手法よりも優れていた。 本報告では, 肺炎領域の検出において, 従来主流であった深層学習アプローチを探索し, 検討した。 本稿では、データセット、データ処理技術、一般的なワークフロー、結果、利点、限界など、収集された研究の重要な側面に焦点を当てる。 本稿では,この分野で現在行われている課題についても論じ,感染地域の検出・分類・ローカライズにおける深層学習モデルの総合的な性能と研究手順の向上に向けた今後の取り組みを提案する。 本論は, 治療可能な疾患に対処する深層学習手法の開発を促進することを目的として, 現状の研究の洞察に富んだ概要と分析を提供することを目的とする。

Pneumonia disease is one of the leading causes of death among children and adults worldwide. In the last ten years, computer-aided pneumonia detection methods have been developed to improve the efficiency and accuracy of the diagnosis process. Among those methods, the effects of deep learning approaches surpassed that of other traditional machine learning methods. This review paper searched and examined existing mainstream deep-learning approaches in the detection of pneumonia regions. This paper focuses on key aspects of the collected research, including their datasets, data processing techniques, general workflow, outcomes, advantages, and limitations. This paper also discusses current challenges in the field and proposes future work that can be done to enhance research procedures and the overall performance of deep learning models in detecting, classifying, and localizing infected regions. This review aims to offer an insightful summary and analysis of current research, facilitating the development of deep learning approaches in addressing treatable diseases.
翻訳日:2024-08-27 20:08:51 公開日:2024-08-23
# QuClEAR: 量子回路サイズにおける重要な低減のためのクリフォード抽出と吸収

QuCLEAR: Clifford Extraction and Absorption for Significant Reduction in Quantum Circuit Size ( http://arxiv.org/abs/2408.13316v1 )

ライセンス: Link先を確認
Ji Liu, Alvin Gonzales, Benchen Huang, Zain Hamid Saleem, Paul Hovland, (参考訳) 量子コンピューティングは、実用的な問題に対処する大きな可能性を秘めている。 しかし、現在利用可能な量子デバイスは、実行された量子回路の忠実さを低下させるノイズの多い量子ゲートに悩まされている。 したがって、量子回路最適化は有用な結果を得るために重要である。 本稿では,量子回路の最適化を目的としたコンパイルフレームワークQuCLEARを提案する。 QuCLEARは2ビットゲート数と回路深さの両方を2つの新しい最適化ステップで大幅に削減する。 まず、回路の端にクリフォードサブ回路を抽出し、ゲートを最適化するクリフォード抽出の概念を紹介する。 第二に、クリフォード回路は古典的にシミュレート可能であるので、抽出したクリフォードサブ回路を古典的に効率的に処理するクリフォード吸収法を提案する。 我々は、量子化学シミュレーション、多体物理学、組合せ最適化問題に幅広く応用されている量子シミュレーション回路の枠組みを実証する。 VQEやQAOAといった短期的アルゴリズムもこのカテゴリに分類される。 様々なベンチマークでの実験結果から、QuCLEAR は CNOT ゲート数を最大 7.7 % 削減し、最先端の手法と比較して8.1 % のエンタングリング深さを最大 8.4 % 削減できることが示された。

Quantum computing carries significant potential for addressing practical problems. However, currently available quantum devices suffer from noisy quantum gates, which degrade the fidelity of executed quantum circuits. Therefore, quantum circuit optimization is crucial for obtaining useful results. In this paper, we present QuCLEAR, a compilation framework designed to optimize quantum circuits. QuCLEAR significantly reduces both the two-qubit gate count and the circuit depth through two novel optimization steps. First, we introduce the concept of Clifford Extraction, which extracts Clifford subcircuits to the end of the circuit while optimizing the gates. Second, since Clifford circuits are classically simulatable, we propose Clifford Absorption, which efficiently processes the extracted Clifford subcircuits classically. We demonstrate our framework on quantum simulation circuits, which have wide-ranging applications in quantum chemistry simulation, many-body physics, and combinatorial optimization problems. Near-term algorithms such as VQE and QAOA also fall within this category. Experimental results across various benchmarks show that QuCLEAR achieves up to a $77.7\%$ reduction in CNOT gate count and up to an $84.1\%$ reduction in entangling depth compared to state-of-the-art methods.
翻訳日:2024-08-27 20:08:51 公開日:2024-08-23
# 高Q空洞quditのアルゴリズム的リーチのベンチマーク

Benchmarking the algorithmic reach of a high-Q cavity qudit ( http://arxiv.org/abs/2408.13317v1 )

ライセンス: Link先を確認
Nicholas Bornman, Tanay Roy, Joshua A. Job, Namit Anand, Gabriel N. Perdue, Silvia Zorzetti, M. Sohaib Alam, (参考訳) 高コヒーレンスキャビティ共振器は、高次元ヒルベルト空間において量子情報を符号化するための優れた資源であり、従来の量子ビットベースのプラットフォームを越えている。 自然な戦略は、Fockベースを使ってクォーディットで情報をエンコードすることだ。 キャビティモードqudit上の量子演算は、系を非線形のアシラリートランスモン量子ビットに結合することで行うことができる。 しかし、キャビティトランスモン装置の性能はノイズトランスモンによって制限される。 したがって、これらのキューディットシステムのための実用的なベンチマークツールをアルゴリズムに依存しない方法で開発することが重要である。 実効支配型ノイズチャネルのシミュレーションにより,重出力生成(HOG)テストや線形クロスエントロピーベンチマーク(XEB)などのサンプリングテストを用いて,これらのキューディットプラットフォームの性能を評価する。 選択的な数依存任意の位相と非条件変位ゲートを共通ゲートセットとして使用する。 以上の結果から,同時代のトランスモンはキャビティモードのFockレベル数個を快適に制御できることが示唆された。 このフレームワークは、改良されたトランスモンでアクセスできるようになるにつれて、より高次元のクイディットのベンチマークを可能にする。

High-coherence cavity resonators are excellent resources for encoding quantum information in higher-dimensional Hilbert spaces, moving beyond traditional qubit-based platforms. A natural strategy is to use the Fock basis to encode information in qudits. One can perform quantum operations on the cavity mode qudit by coupling the system to a non-linear ancillary transmon qubit. However, the performance of the cavity-transmon device is limited by the noisy transmons. It is, therefore, important to develop practical benchmarking tools for these qudit systems in an algorithm-agnostic manner. We gauge the performance of these qudit platforms using sampling tests such as the Heavy Output Generation (HOG) test as well as the linear Cross-Entropy Benchmark (XEB), by way of simulations of such a system subject to realistic dominant noise channels. We use selective number-dependent arbitrary phase and unconditional displacement gates as our universal gateset. Our results show that contemporary transmons comfortably enable controlling a few tens of Fock levels of a cavity mode. This framework allows benchmarking even higher dimensional qudits as those become accessible with improved transmons.
翻訳日:2024-08-27 20:08:51 公開日:2024-08-23
# CLIPによるオンラインゼロショット分類

Online Zero-Shot Classification with CLIP ( http://arxiv.org/abs/2408.13320v1 )

ライセンス: Link先を確認
Qi Qian, Juhua Hu, (参考訳) CLIPのようなビジョン言語による事前トレーニングでは、ゼロショット転送が可能で、候補クラス名に従ってイメージを分類することができる。 CLIPは、さまざまな下流タスクにおいて印象的なゼロショットのパフォーマンスを示すが、ターゲットデータからの分散は十分に活用されていない。 そこで本研究では,各画像がランダムな順序で分類され,一度だけ訪れて,その表現を記憶せずに即座に予測を行う,新しいゼロショット転送シナリオについて検討する。 バニラゼロショット分類と比較して、提案フレームワークは、到着した画像の統計情報を側情報として考慮しつつ、オンラインサービスに対する柔軟性を保ち、実際のアプリケーションの性能向上に寄与する。 効果的なオンライン最適化の課題に対処するために、まずターゲットデータ分布をモデル化するオンラインラベル学習を開発する。 そして、視覚空間における各クラスのプロキシをさらに最適化し、画像とテキスト間のモダリティギャップを軽減するオンラインプロキシ学習手法を提案する。 両オンライン戦略の収束は理論的に保証される。 オンラインラベル学習とプロキシ学習から予測されたラベルを組み合わせることで、オンラインゼロショット転送法(OnZeta)はデータセット全体にアクセスすることなく、ImageNet上で78.94\%の精度を実現する。 さらに、視覚エンコーダが異なる他の13の下流タスクに対する広範な実験では、平均で3.5%以上の改善がなされており、提案手法の有効性が示されている。 コードは \url{https://github.com/idstcv/OnZeta} で入手できる。

Vision-language pre-training such as CLIP enables zero-shot transfer that can classify images according to the candidate class names. While CLIP demonstrates an impressive zero-shot performance on diverse downstream tasks, the distribution from the target data has not been leveraged sufficiently. In this work, we study a novel online zero-shot transfer scenario, where each image arrives in a random order for classification and is visited only once to obtain prediction immediately without storing its representation. Compared with the vanilla zero-shot classification, the proposed framework preserves its flexibility for online service while considering the statistics of the arrived images as the side information to capture the distribution of target data, which can help improve the performance of real-world applications. To tackle the challenge of effective online optimization, we first develop online label learning to model the target data distribution. Then, the proxy of each class in the vision space is further optimized with the proposed online proxy learning method to mitigate the modality gap between images and text. The convergence of both online strategies can be theoretically guaranteed. By combining the predicted label from the online label learning and proxy learning, our online zero-shot transfer method (OnZeta) achieves $78.94\%$ accuracy on ImageNet without accessing the entire data set. Moreover, extensive experiments on other 13 downstream tasks with different vision encoders show a more than $3\%$ improvement on average, which demonstrates the effectiveness of our proposal. Code is available at \url{https://github.com/idstcv/OnZeta}.
翻訳日:2024-08-27 20:08:51 公開日:2024-08-23
# 最適二レベル最適化における安定な定式化

Stable Formulations in Optimistic Bilevel Optimization ( http://arxiv.org/abs/2408.13323v1 )

ライセンス: Link先を確認
Johannes O. Royset, (参考訳) 双レベル最適化問題の解法は、問題データの変更による不安定性に悩まされる傾向がある。 楽観的な設定では、凸性も滑らか性も起こさないという軽微な仮定の下で、望ましい安定性を示す、持ち上げられた代替の定式化を構築する。 上層と下層の問題には、整数の制限と解法的制約が伴う。 一連の結果において、我々は、極端に広範に保持される意味で、少なくとも低レベルの問題に対して、ポイントワイズと局所的な落ち着きを呼び起こす。 オルタナティブな定式化は計算的に魅力的であり、構造特性が取り出され、外部近似アルゴリズムが利用可能になる。

Solutions of bilevel optimization problems tend to suffer from instability under changes to problem data. In the optimistic setting, we construct a lifted, alternative formulation that exhibits desirable stability properties under mild assumptions that neither invoke convexity nor smoothness. The upper- and lower-level problems might involve integer restrictions and disjunctive constraints. In a range of results, we at most invoke pointwise and local calmness for the lower-level problem in a sense that holds broadly. The alternative formulation is computationally attractive with structural properties being brought out and an outer approximation algorithm becoming available.
翻訳日:2024-08-27 19:59:02 公開日:2024-08-23
# 線形空間減衰を用いた局所的観測抽象化によるコンバットシミュレーションの強化学習

Localized Observation Abstraction Using Piecewise Linear Spatial Decay for Reinforcement Learning in Combat Simulations ( http://arxiv.org/abs/2408.13328v1 )

ライセンス: Link先を確認
Scotty Black, Christian Darken, (参考訳) 戦闘シミュレーションの分野では、深層強化学習(RL)エージェントの訓練と配備は、そのような環境の動的で複雑な性質のため、依然として重大な課題に直面している。 残念ながら、シナリオと利用可能な情報の複雑さが増加するにつれて、特定のパフォーマンスのしきい値を達成するのに必要なトレーニング時間は、単に増加するだけでなく、指数関数的に行われることが多い。 この関係は、RLエージェントの訓練における複雑さの重大な影響を浮き彫りにする。 本稿では、RLを用いたAIエージェントの訓練において、この制限に対処する新しいアプローチを提案する。 従来のRL法は、実世界の計算制約や、RLの既知のサンプル非効率問題により、これらの高次元動的環境において苦労することが示されている。 これらの制約を克服するために,一方向線形空間減衰を用いた局所的な観測抽象化法を提案する。 この技術は、状態空間を単純化し、重要な情報を保持しながら計算要求を減らし、空間的関係がしばしば重要となる動的環境におけるAIトレーニング効率を向上させる。 分析の結果,この局所的な観測アプローチは,シナリオの複雑さが増大する中で,従来型のグローバルな観測手法よりも一貫して優れていたことが判明した。 本稿では,RLの局所化観測が動的環境における大規模状態表現課題に対する効果的な解決法として有効であることを示すために,RLの観測抽象化の研究を前進させる。

In the domain of combat simulations, the training and deployment of deep reinforcement learning (RL) agents still face substantial challenges due to the dynamic and intricate nature of such environments. Unfortunately, as the complexity of the scenarios and available information increases, the training time required to achieve a certain threshold of performance does not just increase, but often does so exponentially. This relationship underscores the profound impact of complexity in training RL agents. This paper introduces a novel approach that addresses this limitation in training artificial intelligence (AI) agents using RL. Traditional RL methods have been shown to struggle in these high-dimensional, dynamic environments due to real-world computational constraints and the known sample inefficiency challenges of RL. To overcome these limitations, we propose a method of localized observation abstraction using piecewise linear spatial decay. This technique simplifies the state space, reducing computational demands while still preserving essential information, thereby enhancing AI training efficiency in dynamic environments where spatial relationships are often critical. Our analysis reveals that this localized observation approach consistently outperforms the more traditional global observation approach across increasing scenario complexity levels. This paper advances the research on observation abstractions for RL, illustrating how localized observation with piecewise linear spatial decay can provide an effective solution to large state representation challenges in dynamic environments.
翻訳日:2024-08-27 19:59:01 公開日:2024-08-23
# デジタル・アート・オブ・ウォー:階層的強化学習を用いたウォーガミングのためのインテリジェント・コンバット・シミュレーション・エージェントの開発

Mastering the Digital Art of War: Developing Intelligent Combat Simulation Agents for Wargaming Using Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2408.13333v1 )

ライセンス: Link先を確認
Scotty Black, (参考訳) 今日の急速な軍事情勢の中で、ウォーガーミングを支援するための人工知能(AI)の進歩が不可欠である。 知的エージェントの開発を約束する強化学習(RL)にもかかわらず、従来のRLは戦闘シミュレーションに固有の複雑性を扱う際の制限に直面している。 この論文では、対象とする観測抽象化、マルチモデル統合、ハイブリッドAIフレームワーク、階層的階層強化学習(HRL)フレームワークなど、包括的なアプローチを提案する。 線形空間減衰を用いた局所的な観測抽象化は,RL問題を単純化し,計算効率を向上し,従来の大域的観測法よりも優れた有効性を示す。 私たちのマルチモデルフレームワークは、さまざまなAI方法論を組み合わせて、パフォーマンスを最適化しつつ、多様な個別の行動モデルの使用を可能にします。 我々のハイブリッドAIフレームワークは、スクリプトエージェントとRLを同期させ、高レベルの決定にRLを、低レベルのタスクにスクリプトエージェントを活用し、適応性、信頼性、パフォーマンスを向上させる。 我々のHRLアーキテクチャとトレーニングフレームワークは、複雑な問題を管理可能なサブプロブレムに分解し、軍事的な意思決定構造と整合する。 最初のテストではパフォーマンスは向上しなかったが、将来のイテレーションを改善するための洞察を得た。 この研究は、この領域における継続的な研究の必要性を強調し、ウォーガミングに革命を起こすAIの可能性を強調している。

In today's rapidly evolving military landscape, advancing artificial intelligence (AI) in support of wargaming becomes essential. Despite reinforcement learning (RL) showing promise for developing intelligent agents, conventional RL faces limitations in handling the complexity inherent in combat simulations. This dissertation proposes a comprehensive approach, including targeted observation abstractions, multi-model integration, a hybrid AI framework, and an overarching hierarchical reinforcement learning (HRL) framework. Our localized observation abstraction using piecewise linear spatial decay simplifies the RL problem, enhancing computational efficiency and demonstrating superior efficacy over traditional global observation methods. Our multi-model framework combines various AI methodologies, optimizing performance while still enabling the use of diverse, specialized individual behavior models. Our hybrid AI framework synergizes RL with scripted agents, leveraging RL for high-level decisions and scripted agents for lower-level tasks, enhancing adaptability, reliability, and performance. Our HRL architecture and training framework decomposes complex problems into manageable subproblems, aligning with military decision-making structures. Although initial tests did not show improved performance, insights were gained to improve future iterations. This study underscores AI's potential to revolutionize wargaming, emphasizing the need for continued research in this domain.
翻訳日:2024-08-27 19:59:01 公開日:2024-08-23
# ゼロショットきめ細かなセマンティック編集が可能な拡散変圧器における潜時空間歪み

Latent Space Disentanglement in Diffusion Transformers Enables Zero-shot Fine-grained Semantic Editing ( http://arxiv.org/abs/2408.13335v1 )

ライセンス: Link先を確認
Zitao Shuai, Chenwei Wu, Zhengxu Tang, Bowen Song, Liyue Shen, (参考訳) Diffusion Transformer (DiTs) は多種多様な高品質のテキスト・トゥ・イメージ(T2I)生成において顕著な成功を収めた。 しかし、テキストと画像の潜伏者が、生成した画像のセマンティクスに、個々に共同でどのように貢献するかは、いまだに未解明のままである。 DiTの潜伏空間の調査を通じて、ゼロショットの微細なセマンティック編集の可能性を解き明かす重要な発見が明らかになった: 1) DiTのテキストと画像空間は本質的に分解可能である。 2) これらの空間は、密接なセマンティック表現空間を集合的に形成し、精密かつきめ細かなセマンティック制御を可能にする。 (3)有効画像編集には,テキストと画像遅延空間の併用が必要である。 これらの知見を生かして、ゼロショットきめ細かい画像編集のためのシンプルで効果的な抽出・マニピュレーション・サンプル(EMS)フレームワークを提案する。 提案手法はまずマルチモーダル大言語モデルを用いて,入力画像の変換とターゲットの編集をテキスト記述に変換する。 次に、所望の編集度に基づいてテキスト埋め込みを線形に操作し、制約付きスコア蒸留サンプリングを用いて画像埋め込みを演算する。 拡散モデルの潜在空間の非交叉度を、新しい計量を提案して定量化する。 微粒な編集性能を評価するため,人間のアノテーション,手動評価,自動メトリクスを取り入れた総合的なベンチマークを導入する。 本研究では,拡散変圧器のセマンティック・アンタングル化特性の解明と,提案手法の有効性について検討した。 私たちのアノテーション付きベンチマークデータセットはhttps://anonymous.com/anonymous/EMS-Benchmarkで公開されています。

Diffusion Transformers (DiTs) have achieved remarkable success in diverse and high-quality text-to-image(T2I) generation. However, how text and image latents individually and jointly contribute to the semantics of generated images, remain largely unexplored. Through our investigation of DiT's latent space, we have uncovered key findings that unlock the potential for zero-shot fine-grained semantic editing: (1) Both the text and image spaces in DiTs are inherently decomposable. (2) These spaces collectively form a disentangled semantic representation space, enabling precise and fine-grained semantic control. (3) Effective image editing requires the combined use of both text and image latent spaces. Leveraging these insights, we propose a simple and effective Extract-Manipulate-Sample (EMS) framework for zero-shot fine-grained image editing. Our approach first utilizes a multi-modal Large Language Model to convert input images and editing targets into text descriptions. We then linearly manipulate text embeddings based on the desired editing degree and employ constrained score distillation sampling to manipulate image embeddings. We quantify the disentanglement degree of the latent space of diffusion models by proposing a new metric. To evaluate fine-grained editing performance, we introduce a comprehensive benchmark incorporating both human annotations, manual evaluation, and automatic metrics. We have conducted extensive experimental results and in-depth analysis to thoroughly uncover the semantic disentanglement properties of the diffusion transformer, as well as the effectiveness of our proposed method. Our annotated benchmark dataset is publicly available at https://anonymous.com/anonymous/EMS-Benchmark, facilitating reproducible research in this domain.
翻訳日:2024-08-27 19:59:01 公開日:2024-08-23
# LalaEval: ドメイン特有な大規模言語モデルのための全体論的人間評価フレームワーク

LalaEval: A Holistic Human Evaluation Framework for Domain-Specific Large Language Models ( http://arxiv.org/abs/2408.13338v1 )

ライセンス: Link先を確認
Chongyan Sun, Ken Lin, Shiwei Wang, Hulong Wu, Chengfei Fu, Zhen Wang, (参考訳) 本稿では,LalaEvalについて紹介する。LalaEvalは,ドメイン固有大言語モデル(LLM)の人間による評価を目的とした総合的なフレームワークである。 LalaEvalは、ドメイン仕様、基準設定、ベンチマークデータセットの作成、評価ルーブリックの構築、徹底的な分析と評価結果の解釈を含む5つの主要なコンポーネントをカバーする、エンドツーエンドプロトコルの包括的なスイートを提案する。 このイニシアチブは、特定のドメイン内で標準化された人的評価を行うための体系的な方法論を提供することによって、重要な研究ギャップを埋めることを目的としており、その適用範囲は広く、文献にかなりのカバレッジがなく、主観的な要因から人的評価の信頼性が低いと批判されることも多いため、特定のドメインや個々の組織が不適切な要求に適応した標準化手続きが望まれている。 さらに、ロジスティクス業界におけるフレームワークの適用例を示し、ドメイン固有の評価ベンチマーク、データセット、およびロジスティクスドメイン用LLMの比較分析を行い、パフォーマンスの違いを解明し、ドメイン固有のLLMのモデル選択と開発をガイドするフレームワークの能力を強調した。 実世界の展開を通じて、ドメイン固有のLCM評価の分野を推し進める上でのフレームワークの有効性を強調し、LLMの実用性とドメイン固有のアプリケーションの性能に関する議論に大きく貢献する。

This paper introduces LalaEval, a holistic framework designed for the human evaluation of domain-specific large language models (LLMs). LalaEval proposes a comprehensive suite of end-to-end protocols that cover five main components including domain specification, criteria establishment, benchmark dataset creation, construction of evaluation rubrics, and thorough analysis and interpretation of evaluation outcomes. This initiative aims to fill a crucial research gap by providing a systematic methodology for conducting standardized human evaluations within specific domains, a practice that, despite its widespread application, lacks substantial coverage in the literature and human evaluation are often criticized to be less reliable due to subjective factors, so standardized procedures adapted to the nuanced requirements of specific domains or even individual organizations are in great need. Furthermore, the paper demonstrates the framework's application within the logistics industry, presenting domain-specific evaluation benchmarks, datasets, and a comparative analysis of LLMs for the logistics domain use, highlighting the framework's capacity to elucidate performance differences and guide model selection and development for domain-specific LLMs. Through real-world deployment, the paper underscores the framework's effectiveness in advancing the field of domain-specific LLM evaluation, thereby contributing significantly to the ongoing discussion on LLMs' practical utility and performance in domain-specific applications.
翻訳日:2024-08-27 19:59:01 公開日:2024-08-23
# 混合量子/古典理論(MQCT)によるH$_2$O + H$_2$衝突における回転状態遷移の速度係数

Rate Coefficients for Rotational State-to-State Transitions in H$_2$O + H$_2$ Collisions as Predicted by Mixed Quantum/Classical Theory (MQCT) ( http://arxiv.org/abs/2408.13339v1 )

ライセンス: Link先を確認
Carolin Joy, Dulat Bostan, Bikramaditya Mandal, Dmitri Babikov, (参考訳) バックグラウンドガスと衝突したH$_2$Oの回転状態間の遷移に対する衝突速度係数の新しいデータベースを開発した。 目的は、水の回転状態(200状態はここに含まれている)と水素の回転状態(10状態)の観点から、他の既存のデータベースを超えて拡張することである。 MQCT法で実装された非弾性散乱の量子/古典的混合理論を応用した。 この近似法が十分に正確であることを確かめるために, 先行データベースとの詳細な比較を行う。 衝突エネルギーに対する積分、H$_2$の最終的な状態に対する和、H$_2$の初期状態に対する平均化を行い、幅広い温度における状態間、有効、および熱速度係数を提供し、高励起のH$_2$分子との衝突における速度係数を初めて示す。 H$_2$O分子の回転遷移の速度係数は、H$_2$投射体の回転励起によって増大し、基底状態のH$_2$よりも約2。 これらのデータは、バックグラウンドガスの水素分子が回転的に励起され、H$_2$O + H$_2$衝突エネルギーが高い高温環境における水分子のより正確な記述を可能にする。 ここで提示される速度係数は、$\sim$2000 Kの温度まで正確であることが期待されている。

A new database of collisional rate coefficients for transitions between the rotational states of H$_2$O collided with H$_2$ background gas is developed. The goal is to expand over the other existing databases in terms of the rotational states of water (200 states are included here) and the rotational states of hydrogen (10 states). All four symmetries of ortho and para water combined with ortho, and para hydrogen are considered.The mixed quantum/classical theory of inelastic scattering implemented in the code MQCT is employed. A detailed comparison with previous databases is conducted to ensure that this approximate method is sufficiently accurate. Integration over collision energies, summation over the final states of H$_2$ and averaging over the initial states of H$_2$ is carried out to provide state-to-state, effective, and thermal rate coefficients in a broad range of temperatures.The rate coefficients for collisions with highly excited H$_2$ molecules are presented for the first time. It is found that rate coefficients for rotational transitions in H$_2$O molecules grow with the rotational excitation of H$_2$ projectiles and exceed those of the ground state H$_2$, roughly, by a factor of 2. These data enable more accurate description of water molecules in high-temperature environments, where the hydrogen molecules of background gas are rotationally excited, and the H$_2$O + H$_2$ collision energy is high. The rate coefficients presented here are expected to be accurate up to the temperature of $\sim$ 2000 K.
翻訳日:2024-08-27 19:59:01 公開日:2024-08-23
# メタラーニングとディスタングルトレーニングによる合成音声スポーフィング検出ロバストネスの改善に向けて

Toward Improving Synthetic Audio Spoofing Detection Robustness via Meta-Learning and Disentangled Training With Adversarial Examples ( http://arxiv.org/abs/2408.13341v1 )

ライセンス: Link先を確認
Zhenyu Wang, John H. L. Hansen, (参考訳) 自動話者検証(ASV)の進歩は、現実世界のアプリケーションに対するスプーフィング検出システムの定式化の研究を促進する。 ASVシステムの性能は、合成音声(SS)、音声変換(VC)、リプレイ(replay)、双子( twins)、偽造(inpersonation)といった複数の種類のスプーフィング攻撃によって著しく低下させることができる。 信頼性が高く堅牢なスプーフ検出システムは、ASVシステムに到達させる代わりに、スプーフ攻撃をフィルタリングするセキュリティゲートとして機能する。 データ不均衡問題に対処するために、重み付き加法的角縁損失を提案し、本研究では、スプーフィング攻撃に対する一般化を改善するために、異なるマージンが割り当てられている。 一方、メタ学習損失関数を組み込んで、サポートの埋め込みとクエリセットの差を最適化し、発話に対するスプーフィングカテゴリーに依存しない埋め込み空間を学習する。 さらに,データ拡張戦略としてスプーフィング音声に知覚不能な摂動を加えることで,敵対例を作成し,対応する正規化統計が敵例のみにのみ実行されることを保証するために,補助バッチ正規化(BN)を用いる。 さらに、単純な注意モジュールを残留ブロックに統合し、特徴抽出プロセスを洗練する。 ASVspoof 2019 corpus の Logical Access (LA) トラックの評価結果から, プールした EER 0.87% と min t-DCF 0.0277 で, 提案したアプローチの有効性を確認した。 これらの進歩は、音声認識/認証システムに対する偽造攻撃の影響を減らす効果的な選択肢を提供する。

Advances in automatic speaker verification (ASV) promote research into the formulation of spoofing detection systems for real-world applications. The performance of ASV systems can be degraded severely by multiple types of spoofing attacks, namely, synthetic speech (SS), voice conversion (VC), replay, twins and impersonation, especially in the case of unseen synthetic spoofing attacks. A reliable and robust spoofing detection system can act as a security gate to filter out spoofing attacks instead of having them reach the ASV system. A weighted additive angular margin loss is proposed to address the data imbalance issue, and different margins has been assigned to improve generalization to unseen spoofing attacks in this study. Meanwhile, we incorporate a meta-learning loss function to optimize differences between the embeddings of support versus query set in order to learn a spoofing-category-independent embedding space for utterances. Furthermore, we craft adversarial examples by adding imperceptible perturbations to spoofing speech as a data augmentation strategy, then we use an auxiliary batch normalization (BN) to guarantee that corresponding normalization statistics are performed exclusively on the adversarial examples. Additionally, A simple attention module is integrated into the residual block to refine the feature extraction process. Evaluation results on the Logical Access (LA) track of the ASVspoof 2019 corpus provides confirmation of our proposed approaches' effectiveness in terms of a pooled EER of 0.87%, and a min t-DCF of 0.0277. These advancements offer effective options to reduce the impact of spoofing attacks on voice recognition/authentication systems.
翻訳日:2024-08-27 19:59:01 公開日:2024-08-23
# 量子アルゴリズムの高速化のためのアンシラリーエンタングリングフロケットキック

Ancillary entangling Floquet kicks for accelerating quantum algorithms ( http://arxiv.org/abs/2408.13345v1 )

ライセンス: Link先を確認
C. -C. Joseph Wang, Phillip C. Lotshaw, Titus Morris, Vicente Leyton-Ortega, Daniel Claudino, Travis S. Humble, (参考訳) 断熱アニーリングを用いた量子シミュレーションは、古典的コンピュータでは研究できない難しい問題に対する洞察を与えることができる。 しかし、励起ギャップの縮小により系が大きくなると劣化し、高い成功確率のアニール速度ボトルネックが生じる。 ここでは、一次系量子ビットをアシラリー量子ビットに絡めるデジタルマルチキュービットゲートを用いて量子シミュレーションを高速化する。 現実的な利点は、システム部分空間における量子アルゴリズムの本来の機能を強化するために、自由度を調整することに由来する。 単純で非自明な短距離、無限長距離の逆場イジングモデルと、量子ビット符号化後の水素分子モデルに対して、ディジタル・アナログ・セッティングにおける正確な状態ベクトル数値シミュレーションにより、解法時間の改善を100%かつ高精度に示す。 この発見は、平均的なハミルトン理論によってさらに支持されている。

Quantum simulation with adiabatic annealing can provide insight into difficult problems that are impossible to study with classical computers. However, it deteriorates when the systems scale up due to the shrinkage of the excitation gap and thus places an annealing rate bottleneck for high success probability. Here, we accelerate quantum simulation using digital multi-qubit gates that entangle primary system qubits with the ancillary qubits. The practical benefits originate from tuning the ancillary gauge degrees of freedom to enhance the quantum algorithm's original functionality in the system subspace. For simple but nontrivial short-ranged, infinite long-ranged transverse-field Ising models, and the hydrogen molecule model after qubit encoding, we show improvement in the time to solution by one hundred percent but with higher accuracy through exact state-vector numerical simulation in a digital-analog setting. The findings are further supported by time-averaged Hamiltonian theory.
翻訳日:2024-08-27 19:59:01 公開日:2024-08-23
# ORCHID: バージョン付きProvenance Graph上での脅威検出のストリーミング

ORCHID: Streaming Threat Detection over Versioned Provenance Graphs ( http://arxiv.org/abs/2408.13347v1 )

ライセンス: Link先を確認
Akul Goyal, Jason Liu, Adam Bates, Gang Wang, (参考訳) Endpoint Detection and Response (EDR)は、静的なルールとイベントストリームを比較して脅威を効率的に監視できるが、過去のシステムコンテキストを組み込むことができないため、誤報の頻度が高くなる。 Provenance-based Intrusion Detection Systems (Prov-IDS) は、異常な行動の因果関係を調べ、脅威分類を改善する。 しかし、これらのProv-IDSを実用的な設定で使用することは依然として難しい - 最先端のニューラルネットワークベースのシステムは、攻撃者の居住時間を短縮する完全にオフラインなデプロイメントモデルでのみ高速であり、同時にメモリ使用量を削減するために、シンプルで精度の低い前処理グラフを使用する。 したがって、今日のProv-IDSは商用のEDR実現に必要なリアルタイムストリーミング環境では効果的に動作できない。 本稿では,リアルタイムイベントストリーム上でプロセスレベルの脅威を詳細に検出する新しいProv-IDSであるORCHIDの設計と実装について述べる。 ORCHIDは、バージョン付き前処理グラフのユニークな不変特性を利用して、グラフ全体を逐次RNNモデルに反復的に埋め込み、計算とメモリコストのごく一部しか消費しない。 我々は、DARPA TCを含む4つの公開データセット上でORCHIDを評価し、ORCHIDが検出遅延を排除し、2桁のメモリ消費を削減しつつ、競合する分類性能を提供できることを示す。

While Endpoint Detection and Response (EDR) are able to efficiently monitor threats by comparing static rules to the event stream, their inability to incorporate past system context leads to high rates of false alarms. Recent work has demonstrated Provenance-based Intrusion Detection Systems (Prov-IDS) that can examine the causal relationships between abnormal behaviors to improve threat classification. However, employing these Prov-IDS in practical settings remains difficult -- state-of-the-art neural network based systems are only fast in a fully offline deployment model that increases attacker dwell time, while simultaneously using simplified and less accurate provenance graphs to reduce memory consumption. Thus, today's Prov-IDS cannot operate effectively in the real-time streaming setting required for commercial EDR viability. This work presents the design and implementation of ORCHID, a novel Prov-IDS that performs fine-grained detection of process-level threats over a real time event stream. ORCHID takes advantage of the unique immutable properties of a versioned provenance graphs to iteratively embed the entire graph in a sequential RNN model while only consuming a fraction of the computation and memory costs. We evaluate ORCHID on four public datasets, including DARPA TC, to show that ORCHID can provide competitive classification performance while eliminating detection lag and reducing memory consumption by two orders of magnitude.
翻訳日:2024-08-27 19:59:01 公開日:2024-08-23
# Rabi発振を用いたダイヤモンド中の電子-$^{14}$N核ハイブリッドスピンレジスタの高忠実量子状態トモグラフィー

High fidelity quantum state tomography of electron-$^{14}$N nuclear hybrid spin register in diamond using Rabi oscillations ( http://arxiv.org/abs/2408.13349v1 )

ライセンス: Link先を確認
Abhishek Shukla, Boo Carmans, Michael Petrov, Daan Vrancken, Milos Nesladek, (参考訳) 我々はRanbi-based Quantum State Tomography (RQST) と呼ばれる新しい量子状態のキャラクタリゼーション法について報告し、特にダイヤモンド中の単一窒素空孔(NV)中心の電子スピンと核スピンについて検証し、高い忠実性を示した。 従来のトモグラフィ法とRQSTの違いは、回転演算子の実装と、測定されたデータセットからの密度行列の構築である。 室温での電子スピンの効率的な量子状態制御を,最大忠実度0.99992のブロッホ球上での40以上の状態に対する平均忠実度0.995以上で実証した。 また、この手法を暗NV核スピン状態に適用する。 状態はC-NOT2量子交絡ゲートを用いて電子スピンを介して読み取られ、同じ秩序の忠実さを示す。

We report on a new quantum state characterisation method, which we call Rabi-based Quantum State Tomography (RQST), that we have validated on single-qubit quantum states, in particular on the electron and nuclear spins of a single nitrogen-vacancy (NV) centre in diamond, demonstrating high fidelities. The difference of RQST with conventional tomography methods is in the implementation of rotation operators and construction of density matrix from the measured data sets. We demonstrate efficient quantum state control of the electron spin at room temperature with an average fidelity of 0.995 over more than 40 measurements on different states on the Bloch sphere with a maximum fidelity of 0.99992. Also, we apply the methodology to the dark NV nuclear spin state. The state is read via the electron spin using the C-NOT two-qubit entanglement gate and demonstrate fidelities of the same order.
翻訳日:2024-08-27 19:59:01 公開日:2024-08-23
# SeA: 教師なし表現学習による最終層特徴に対する意味的対応強化

SeA: Semantic Adversarial Augmentation for Last Layer Features from Unsupervised Representation Learning ( http://arxiv.org/abs/2408.13351v1 )

ライセンス: Link先を確認
Qi Qian, Yuanhong Xu, Juhua Hu, (参考訳) 事前訓練された深層モデルの特定の層から抽出した深部特徴は、従来の手作りの特徴よりも優れた性能を示す。 多様な増分を探索できる微調整や線形探索と比較して、元の入力空間では、固定された深い特徴を持つ学習のための適切な増分はより困難であり、研究が進んでおらず、性能が劣化する。 固定された深い特徴の可能性を解き明かすため、最適化のための特徴空間に新しい意味的敵拡張(SeA)を提案する。 具体的には、勾配によって暗示される逆方向を、他の例に代表される部分空間に投影して意味情報を保存する。 次に、深い機能はセマンティックな方向に乱れ、拡張された機能を適用して分類器を学習する。 実験は、11ドルのベンチマークダウンストリーム分類タスクと4ドル人気のトレーニング済みモデルで行われます。 提案手法は,SeAを含まないディープ機能よりも平均で2\%$よい。 さらに、優れたパフォーマンスを期待されている高価な微調整と比較して、SeAは、11ドルのタスクのうち6ドルと同等のパフォーマンスを示し、その効率に加えて提案の有効性を実証しています。 コードは \url{https://github.com/idstcv/SeA} で入手できる。

Deep features extracted from certain layers of a pre-trained deep model show superior performance over the conventional hand-crafted features. Compared with fine-tuning or linear probing that can explore diverse augmentations, \eg, random crop/flipping, in the original input space, the appropriate augmentations for learning with fixed deep features are more challenging and have been less investigated, which degenerates the performance. To unleash the potential of fixed deep features, we propose a novel semantic adversarial augmentation (SeA) in the feature space for optimization. Concretely, the adversarial direction implied by the gradient will be projected to a subspace spanned by other examples to preserve the semantic information. Then, deep features will be perturbed with the semantic direction, and augmented features will be applied to learn the classifier. Experiments are conducted on $11$ benchmark downstream classification tasks with $4$ popular pre-trained models. Our method is $2\%$ better than the deep features without SeA on average. Moreover, compared to the expensive fine-tuning that is expected to give good performance, SeA shows a comparable performance on $6$ out of $11$ tasks, demonstrating the effectiveness of our proposal in addition to its efficiency. Code is available at \url{https://github.com/idstcv/SeA}.
翻訳日:2024-08-27 19:59:01 公開日:2024-08-23
# QAdaPrune: 変分量子回路のトレーニングのための適応パラメータプルーニング

QAdaPrune: Adaptive Parameter Pruning For Training Variational Quantum Circuits ( http://arxiv.org/abs/2408.13352v1 )

ライセンス: Link先を確認
Ankit Kulshrestha, Xiaoyuan Liu, Hayato Ushijima-Mwesigwa, Bao Bach, Ilya Safro, (参考訳) 現在のノイズの多い中間スケール量子コンピューティングの時代では、ゲートベースの変分量子回路の効率的な実装法を考案する必要がある。 これにより、提案されたさまざまなアプリケーションが、実際の量子ハードウェアにデプロイできることが保証される。 量子回路の効率性は、トレーニング可能なゲートの数と全体回路の深さの両方で要求される。 バレン高原の主な懸念は、この効率性の必要性をさらに深刻にしたことである。 効率的な量子回路実現の問題は、ゲートの複雑さと回路深さを低減するために文献で広く研究されている。 もう一つの重要なアプローチは、変分量子回路における \emph{parameter complexity} を減少させる手法を設計することである。 既存の手法にはハイパーパラメータベースのパラメータプルーニングがあり、これは異なるアプリケーションに最適なハイパーパラメータを見つけるという新たな課題をもたらす。 本稿では,適応パラメータのプルーニングアルゴリズムである \emph{QAdaPrune} について述べる。 得られたスパースパラメータ集合は、未切断の量子回路と同等に動作する量子回路を生成し、場合によっては、元の量子回路がバレンプラトーに固定されたとしても、回路のトレーニング性を高める可能性があることを示す。 \\ \noindent{\bf Reproducibility}: ソースコードとデータは \url{https://github.com/aicaffeinelife/QAdaPrune.git} で公開されている。

In the present noisy intermediate scale quantum computing era, there is a critical need to devise methods for the efficient implementation of gate-based variational quantum circuits. This ensures that a range of proposed applications can be deployed on real quantum hardware. The efficiency of quantum circuit is desired both in the number of trainable gates and the depth of the overall circuit. The major concern of barren plateaus has made this need for efficiency even more acute. The problem of efficient quantum circuit realization has been extensively studied in the literature to reduce gate complexity and circuit depth. Another important approach is to design a method to reduce the \emph{parameter complexity} in a variational quantum circuit. Existing methods include hyperparameter-based parameter pruning which introduces an additional challenge of finding the best hyperparameters for different applications. In this paper, we present \emph{QAdaPrune} - an adaptive parameter pruning algorithm that automatically determines the threshold and then intelligently prunes the redundant and non-performing parameters. We show that the resulting sparse parameter sets yield quantum circuits that perform comparably to the unpruned quantum circuits and in some cases may enhance trainability of the circuits even if the original quantum circuit gets stuck in a barren plateau.\\ \noindent{\bf Reproducibility}: The source code and data are available at \url{https://github.com/aicaffeinelife/QAdaPrune.git}
翻訳日:2024-08-27 19:59:01 公開日:2024-08-23
# ロバストなスモールフットプリントキーワードスポッティングのための逆例による遠絡訓練

Disentangled Training with Adversarial Examples For Robust Small-footprint Keyword Spotting ( http://arxiv.org/abs/2408.13355v1 )

ライセンス: Link先を確認
Zhenyu Wang, Li Wan, Biqiao Zhang, Yiteng Huang, Shang-Wen Li, Ming Sun, Xin Lei, Zhaojun Yang, (参考訳) デバイス上で連続的に動作しているキーワードスポッティング(KWS)エンジンは、通常目に見えない様々な音声信号に曝される。 異なる音響環境下で頑健性を有する小型かつ高性能なKWSモデルを構築することは難しい問題である。 本稿では,KWSのロバスト性を改善するために,敵の例を効果的に適用する方法を検討する。 本稿では,元データと逆データとのミスマッチを低減し,元データと逆データとのミスマッチを低減するために,逆データを用いたデータソース対応非絡合学習を提案する。 KWSモデルアーキテクチャは、深度的に分離可能な畳み込みと単純な注意モジュールに基づいている。 実験結果から,提案した学習戦略は,最強のベースラインを敵の例を使わずに,内部データセットに対する偽受け入れ率を40.31%=$1%で改善することを示した。 我々の最高のパフォーマンスシステムは、Google Speech Commands V1データセットで9,8.06%の精度を達成する。

A keyword spotting (KWS) engine that is continuously running on device is exposed to various speech signals that are usually unseen before. It is a challenging problem to build a small-footprint and high-performing KWS model with robustness under different acoustic environments. In this paper, we explore how to effectively apply adversarial examples to improve KWS robustness. We propose datasource-aware disentangled learning with adversarial examples to reduce the mismatch between the original and adversarial data as well as the mismatch across original training datasources. The KWS model architecture is based on depth-wise separable convolution and a simple attention module. Experimental results demonstrate that the proposed learning strategy improves false reject rate by $40.31%$ at $1%$ false accept rate on the internal dataset, compared to the strongest baseline without using adversarial examples. Our best-performing system achieves $98.06%$ accuracy on the Google Speech Commands V1 dataset.
翻訳日:2024-08-27 19:59:01 公開日:2024-08-23
# 食事自動評価のための食品画像の形状保存生成

Shape-Preserving Generation of Food Images for Automatic Dietary Assessment ( http://arxiv.org/abs/2408.13358v1 )

ライセンス: Link先を確認
Guangzong Chen, Zhi-Hong Mao, Mingui Sun, Kangni Liu, Wenyan Jia, (参考訳) 伝統的な食事評価法は自己報告に大きく依存しており、それは時間がかかり偏りがちである。 人工知能(AI)の最近の進歩は、特に食品画像の分析を通じて、食事評価の新しい可能性を明らかにしている。 食品の認識と画像からの食品量の推定は、自動食事評価の鍵となる手順として知られている。 しかし、どちらの手順も、現在利用できない食品名や巻名にラベルを付けた大量の訓練画像を必要とした。 あるいは、最近の研究では、GAN(Generative Adversarial Networks)を用いて、トレーニング画像を人工的に生成できることが示されている。 それでも、大量の食品画像と既知の量の便利な生成は、既存の技術では依然として課題である。 本研究では,条件付き食品画像生成のためのシンプルなGANベースのニューラルネットワークアーキテクチャを提案する。 生成された画像中の食品や容器の形状は、参照入力画像の形状とよく似ている。 本実験は,生成した画像のリアリズムと,提案フレームワークの形状保存能力を示す。

Traditional dietary assessment methods heavily rely on self-reporting, which is time-consuming and prone to bias. Recent advancements in Artificial Intelligence (AI) have revealed new possibilities for dietary assessment, particularly through analysis of food images. Recognizing foods and estimating food volumes from images are known as the key procedures for automatic dietary assessment. However, both procedures required large amounts of training images labeled with food names and volumes, which are currently unavailable. Alternatively, recent studies have indicated that training images can be artificially generated using Generative Adversarial Networks (GANs). Nonetheless, convenient generation of large amounts of food images with known volumes remain a challenge with the existing techniques. In this work, we present a simple GAN-based neural network architecture for conditional food image generation. The shapes of the food and container in the generated images closely resemble those in the reference input image. Our experiments demonstrate the realism of the generated images and shape-preserving capabilities of the proposed framework.
翻訳日:2024-08-27 19:59:01 公開日:2024-08-23
# Power Scheduler: Batch SizeとToken Number Agnostic Learning Rate Scheduler

Power Scheduler: A Batch Size and Token Number Agnostic Learning Rate Scheduler ( http://arxiv.org/abs/2408.13359v1 )

ライセンス: Link先を確認
Yikang Shen, Matthew Stallone, Mayank Mishra, Gaoyuan Zhang, Shawn Tan, Aditya Prasad, Adriana Meza Soria, David D. Cox, Rameswar Panda, (参考訳) 言語モデルの事前学習に最適な学習率を見つけることは難しい課題である。 これは、学習率、バッチサイズ、トレーニングトークン数、モデルサイズとその他のハイパーパラメータとの間に複雑な相関関係があるだけでなく、数十億または3兆のパラメータを持つ大規模言語モデルのハイパーパラメータ検索を行うことが違法に高価であるためでもある。 近年の研究では、小さなプロキシモデルと小さなコーパスを用いて、ハイパーパラメーター探索を行い、最適なパラメータを大きなモデルや大きなコーパスに変換する手法が提案されている。 ゼロショット転送性は、深さや幅などのモデルサイズに関連するハイパーパラメーターに対して理論的および実験的に証明されているが、小さなコーパスから大きなコーパスへのゼロショット転送は過小評価されている。 本稿では,最近提案されたWSDスケジューラにおける最適学習率,バッチサイズ,トレーニングトークン数の相関について検討する。 何千もの小さな実験の後、変数間の電力-法則関係を発見し、モデルサイズ間での転送可能性を示した。 そこで本研究では,学習率スケジューラであるパワースケジューラを提案する。 実験によると、Powerスケジューラと最大更新パラメータ(muP)を組み合わせることで、トレーニングトークンの数、バッチサイズ、モデルサイズ、さらにはモデルアーキテクチャにも拘わらず、1セットのハイパーパラメータで、常に優れたパフォーマンスを達成することができる。 Powerスケジューラでトレーニングした3B高密度モデルとMoEモデルは、最先端の小型言語モデルと同等のパフォーマンスを実現しています。 トレーニング済みのモデルをhttps://ibm.biz/BdKhLa.comで公開しています。

Finding the optimal learning rate for language model pretraining is a challenging task. This is not only because there is a complicated correlation between learning rate, batch size, number of training tokens, model size, and other hyperparameters but also because it is prohibitively expensive to perform a hyperparameter search for large language models with Billions or Trillions of parameters. Recent studies propose using small proxy models and small corpus to perform hyperparameter searches and transposing the optimal parameters to large models and large corpus. While the zero-shot transferability is theoretically and empirically proven for model size related hyperparameters, like depth and width, the zero-shot transfer from small corpus to large corpus is underexplored. In this paper, we study the correlation between optimal learning rate, batch size, and number of training tokens for the recently proposed WSD scheduler. After thousands of small experiments, we found a power-law relationship between variables and demonstrated its transferability across model sizes. Based on the observation, we propose a new learning rate scheduler, Power scheduler, that is agnostic about the number of training tokens and batch size. The experiment shows that combining the Power scheduler with Maximum Update Parameterization (muP) can consistently achieve impressive performance with one set of hyperparameters regardless of the number of training tokens, batch size, model size, and even model architecture. Our 3B dense and MoE models trained with the Power scheduler achieve comparable performance as state-of-the-art small language models. We open-source these pretrained models at https://ibm.biz/BdKhLa.
翻訳日:2024-08-27 19:59:01 公開日:2024-08-23
# NeurCAM: 付加モデルによる解釈可能なニューラルクラスタリング

NeurCAM: Interpretable Neural Clustering via Additive Models ( http://arxiv.org/abs/2408.13361v1 )

ライセンス: Link先を確認
Nakul Upadhya, Eldan Cohen, (参考訳) 解釈可能なクラスタリングアルゴリズムは、知識発見とパターン認識タスクをサポートするために得られたグループを説明しながら、類似したデータポイントをグループ化する。 決定木を用いたクラスタリングを解釈するほとんどの手法はクラスタを構成するが、大きな木を必要とする複雑な問題に対して、木の解釈可能性はしばしば悪化する。 本研究では,ニューラルクラスタリング付加モデル(NeurCAM)を提案する。ニューラルクラスタリング付加モデル(NeurCAM)は,ニューラル一般化付加モデルを利用して,得られたクラスタの付加的説明を伴うファジィクラスタメンバシップを提供する,解釈可能なクラスタリング問題に対する新しいアプローチである。 モデルの説明における空間性を促進するために,特徴の数を明示的に制限する選択ゲートを導入する。 さらに,テキストの文脈的表現を考慮したテキストクラスタリングを行う上で,ユニワードやバイワードの用語に基づいて得られたクラスタについての説明を行う能力を示す。 大規模な実験により、NeurCAMは解釈可能なままのグラフデータセット上でのブラックボックスメソッドに匹敵するパフォーマンスを実現している。 さらに本手法は,テキストデータのクラスタリングにおいて,他の解釈可能なクラスタリング手法よりも優れている。

Interpretable clustering algorithms aim to group similar data points while explaining the obtained groups to support knowledge discovery and pattern recognition tasks. While most approaches to interpretable clustering construct clusters using decision trees, the interpretability of trees often deteriorates on complex problems where large trees are required. In this work, we introduce the Neural Clustering Additive Model (NeurCAM), a novel approach to the interpretable clustering problem that leverages neural generalized additive models to provide fuzzy cluster membership with additive explanations of the obtained clusters. To promote sparsity in our model's explanations, we introduce selection gates that explicitly limit the number of features and pairwise interactions leveraged. Additionally, we demonstrate the capacity of our model to perform text clustering that considers the contextual representation of the texts while providing explanations for the obtained clusters based on uni- or bi-word terms. Extensive experiments show that NeurCAM achieves performance comparable to black-box methods on tabular datasets while remaining interpretable. Additionally, our approach significantly outperforms other interpretable clustering approaches when clustering on text data.
翻訳日:2024-08-27 19:49:09 公開日:2024-08-23
# 手続き型学習モデルを用いた学習の異なる理論の再検討

Reconciling Different Theories of Learning with an Agent-based Model of Procedural Learning ( http://arxiv.org/abs/2408.13364v1 )

ライセンス: Link先を確認
Sina Rismanchian, Shayan Doroudi, (参考訳) 人間の学習の計算モデルは、理論的および定性的な学習理論やフレームワークにおけるニュアンスに関する知識を高める上で重要な役割を果たす。 実証的な研究によって検証できることが示されている教育環境には、既存のフレームワークが数多く存在するが、これらの理論が矛盾する主張や指導の勧告を行う場合もある。 そこで本研究では,ICAP,知識学習指導(KLI),認知負荷理論(CLT)を融合した,手続き型ABICAP(Procedural ABICAP)の新たな計算モデルを提案する。 ICAPは、建設的学習は一般的により良い学習結果をもたらすと仮定するが、KLIやCLTのような理論は、これは必ずしも真実ではないと主張している。 この理由の1つは、ICAPが主に概念学習に使われており、手続き学習を考えるための枠組みとして過小評価されているためと考えられる。 文献の異なる結果を再現するために,我々の計算モデルが,設計とシミュレーションの両方でどのように利用できるかを示す。 より一般的には、我々の計算モデルを様々な教育環境をシミュレートするために使用できる学習の実行可能な理論として位置づける。

Computational models of human learning can play a significant role in enhancing our knowledge about nuances in theoretical and qualitative learning theories and frameworks. There are many existing frameworks in educational settings that have shown to be verified using empirical studies, but at times we find these theories make conflicting claims or recommendations for instruction. In this study, we propose a new computational model of human learning, Procedural ABICAP, that reconciles the ICAP, Knowledge-Learning-Instruction (KLI), and cognitive load theory (CLT) frameworks for learning procedural knowledge. ICAP assumes that constructive learning generally yields better learning outcomes, while theories such as KLI and CLT claim that this is not always true. We suppose that one reason for this may be that ICAP is primarily used for conceptual learning and is underspecified as a framework for thinking about procedural learning. We show how our computational model, both by design and through simulations, can be used to reconcile different results in the literature. More generally, we position our computational model as an executable theory of learning that can be used to simulate various educational settings.
翻訳日:2024-08-27 19:49:09 公開日:2024-08-23
# CodeRefine: 研究論文のLLM生成コード実装を強化するパイプライン

CodeRefine: A Pipeline for Enhancing LLM-Generated Code Implementations of Research Papers ( http://arxiv.org/abs/2408.13366v1 )

ライセンス: Link先を確認
Ekaterina Trofimova, Emil Sataev, Abhijit Singh Jowhari, (参考訳) 本稿では,Large Language Models (LLMs) を用いた研究論文の方法論を関数型コードに自動変換する新しいフレームワークであるCodeRefineを提案する。 我々の多段階アプローチは、まず論文からキーテキストチャンクを抽出して要約し、それらのコード関連性を分析し、事前に定義されたオントロジーを用いて知識グラフを作成する。 その後、この構造化表現からコードが生成され、提案されたリフレクション検索拡張生成アプローチによって拡張される。 CodeRefineは理論研究と実践的な実装の橋渡しという課題に対処し、LLMゼロショットプロンプトのより正確な代替手段を提供する。 さまざまな科学的論文の評価では、CodeRefineが論文からコード実装を改善する能力を示し、現実世界のアプリケーションにおける最先端アルゴリズムの採用を加速する可能性がある。

This paper presents CodeRefine, a novel framework for automatically transforming research paper methodologies into functional code using Large Language Models (LLMs). Our multi-step approach first extracts and summarizes key text chunks from papers, analyzes their code relevance, and creates a knowledge graph using a predefined ontology. Code is then generated from this structured representation and enhanced through a proposed retrospective retrieval-augmented generation approach. CodeRefine addresses the challenge of bridging theoretical research and practical implementation, offering a more accurate alternative to LLM zero-shot prompting. Evaluations on diverse scientific papers demonstrate CodeRefine's ability to improve code implementation from the paper, potentially accelerating the adoption of cutting-edge algorithms in real-world applications.
翻訳日:2024-08-27 19:49:09 公開日:2024-08-23
# 生成ブロックチェーン: ブロックチェーンをトランザクション記録からトランザクション生成に変換する

Generative Blockchain: Transforming Blockchain from Transaction Recording to Transaction Generation through Proof-of-Merit ( http://arxiv.org/abs/2408.13367v1 )

ライセンス: Link先を確認
Haozhao Zhang, Zhe Zhang, Zhiqiang Zheng, Varghese Jacob, (参考訳) 本稿では,トランザクション生成と記録を組み合わせることによって従来のブロックチェーン技術を変革することを目的とした,生成ブロックチェーンという新たなパラダイムを提案する。 当社の設計の中心は、トランザクションを記録する前に複雑な問題を解決する必要がある環境向けに開発された、新しいコンセンサスメカニズムであるProof-of-Merit(PoM)です。 PoMは、既存のトランザクションを主に記録する一般的なコンセンサスメカニズムと根本的に異なる、統合されたブロックチェーンシステム内でトランザクションの生成と記録を統合する。 我々は、複雑なトランザクション生成問題を解決するタスクが独立した問題解決者のプールに委譲される、オンデマンドプラットフォーム上でPoMを実証する。 これらの解法はトランザクションを生成し、そのソリューションはメリットに基づいて選択される。 勝者はこれらのトランザクションをブロックチェーンに登録し、それに応じて報酬を得る。 効率とエクイティという2つの主要なパフォーマンス指標のバランスをとるために、分散制御パラメータ(DCP)を導入します。 生成ブロックチェーンの適用性は、マーカ(ソリューション)がライダーとドライバをマッチングするタスクを行うライドシェアリングコンテキストを通じて説明されます。 エージェントベースのシミュレーションを用いてPoMのパフォーマンスとニュアンスド特性を実証し、生成ブロックチェーンにおける望ましい効率とエクイティのバランスを達成するために最適なDCP値を見つける方法について検討する。

This paper proposes a new paradigm: generative blockchain, which aims to transform conventional blockchain technology by combining transaction generation and recording, rather than focusing solely on transaction recording. Central to our design is a novel consensus mechanism, Proof-of-Merit (PoM), specifically crafted for environments where businesses must solve complex problems before transactions can be recorded. PoM integrates the generation and recording of transactions within a unified blockchain system, fundamentally differing from prevailing consensus mechanisms that primarily record existing transactions. We demonstrate PoM on a ride service on-demand platform, where the task of solving complex transaction-generating problems is delegated to a pool of independent problem solvers. These solvers generate transactions, and their solutions are selected based on merit. The winning solvers then register these transactions onto the blockchain and are rewarded accordingly. We introduce a Decentralized Control Parameter (DCP) to balance two key performance metrics: efficiency and equity. The applicability of our generative blockchain is illustrated through a ridesharing context, where matchers (solvers) are tasked with matching riders to drivers. We demonstrate PoM's performance and nuanced properties using agent-based simulation, exploring how to find the optimal DCP value to achieve a desirable balance of efficiency and equity in a generative blockchain.
翻訳日:2024-08-27 19:49:09 公開日:2024-08-23
# 圧電材料間のフォノン支援カシミール相互作用

Phonon-assisted Casimir interactions between piezoelectric materials ( http://arxiv.org/abs/2408.13368v1 )

ライセンス: Link先を確認
Dai-Nam Le, Pablo Rodriguez-Lopez, Lilia M. Woods, (参考訳) 圧電材料における電磁場と格子振動の強い結合はフォノンポラリトン励起を引き起こす。 そのような準粒子は、ユビキタスカシミール力を調整するための新しい方向を開く。 ここでは、一般化されたボルン・フン流体力学モデルを用いて、縦型光フォノン、横型光フォノン、フォノンポラリトンという、圧電学における3種類のフォノンを研究した。 フォノン-電磁結合はフレネル反射行列の複雑な集合となり、想像周波数領域におけるカシミール力を計算するための標準Lifshitzアプローチの利用を防止する。 我々の計算は実周波数と有限温度のアプローチに基づいており、カシミール相互作用の様々な機構が検討されている。 圧電体は、このユビキタスな力を初めてフォノン特性によって制御できる素材の集合体として現れる。 カシミール相互作用は、異なる構造圧電多型に関連する異なる種類の表面フォノンポラリトンを区別するのに適した手段として現れる。

The strong coupling between electromagnetic field and lattice oscillation in piezoelectric materials gives rise to phonon polariton excitations. Such quasiparticles open up new directions in modulating the ubiquitous Casimir force. Here by utilizing the generalized Born-Huang hydrodynamics model, three types of phonons in piezoelectrics are studied: longitudinal optical phonon, transverse optical phonon and phonon polariton. The phonon-electromagnetic coupling results in a complex set of Fresnel reflection matrices which prevents the utilization of the standard Lifshitz approach for calculating Casimir forces in the imaginary frequency domain. Our calculations are based on an approach within real frequency and finite temperatures, through which various regimes of the Casimir interaction are examined. Our study shows that piezoelectrics emerge as a set of materials where this ubiquitous force can be controlled via phonon properties for the first time. The Casimir interaction appears as a suitable means to distinguish between different types of surface phonon polaritons associated with different structural piezoelectric polytypes.
翻訳日:2024-08-27 19:49:09 公開日:2024-08-23
# BiGS: 楽しむ3Dガウススティングのための双方向ガウスプリミティブ

BiGS: Bidirectional Gaussian Primitives for Relightable 3D Gaussian Splatting ( http://arxiv.org/abs/2408.13370v1 )

ライセンス: Link先を確認
Zhenyuan Liu, Yu Guo, Xinyuan Li, Bernd Bickel, Ran Zhang, (参考訳) 動的照明下で3次元オブジェクトを表面・体積的に表現・描画するための画像ベース新規ビュー合成技術であるバイオリエント・ガウス・プリミティブスについて述べる。 提案手法はガウススプラッティングフレームワークに光の内在分解を取り入れ,3次元物体のリアルタイムリライティングを可能にする。 両方向球面高調波による光・視界依存散乱表現を採用することにより, 表面および体積物質を結合的な外観モデル内に統一する。 我々のモデルは、特定の曲面の正規関連反射関数を使用せず、正規が定義されていないガウススプラッティングのような体積表現とより互換性がある。 複雑な材料でオブジェクトを再構成・レンダリングすることで,本手法を実証する。 ワンライト・アット・ア・タイム(OLAT)データを入力として、新しい照明条件下での光リアルな外観をリアルタイムで再現することができる。

We present Bidirectional Gaussian Primitives, an image-based novel view synthesis technique designed to represent and render 3D objects with surface and volumetric materials under dynamic illumination. Our approach integrates light intrinsic decomposition into the Gaussian splatting framework, enabling real-time relighting of 3D objects. To unify surface and volumetric material within a cohesive appearance model, we adopt a light- and view-dependent scattering representation via bidirectional spherical harmonics. Our model does not use a specific surface normal-related reflectance function, making it more compatible with volumetric representations like Gaussian splatting, where the normals are undefined. We demonstrate our method by reconstructing and rendering objects with complex materials. Using One-Light-At-a-Time (OLAT) data as input, we can reproduce photorealistic appearances under novel lighting conditions in real time.
翻訳日:2024-08-27 19:49:09 公開日:2024-08-23
# 言語モデルによる生成コード中の欠陥の理解

Understanding Defects in Generated Codes by Language Models ( http://arxiv.org/abs/2408.13372v1 )

ライセンス: Link先を確認
Ali Mohammadi Esfahani, Nafiseh Kahani, Samuel A. Ajila, (参考訳) 本研究では,Large Language Models (LLMs) によるコード生成の信頼性について検討し,生成したコードの欠陥を特定し解析することに焦点を当てた。 コード生成の自動化におけるLLMの高度な機能にもかかわらず、出力の正確性と機能を保証することは大きな課題である。 構造的欠陥分類法を用いて、LLMが生成したコードスニペットの欠陥を367個分類し、解析する。 これらのエラーカテゴリは、LLMが頻繁に失敗する重要な領域を示し、目標とする改善の必要性を強調している。 コード生成の精度を高めるため,Scratchpad Prompting,Program of Thoughts Prompting,Chain-of-Thought Prompting,Chain of Code Prompting,Structured Chain-of-Thought Promptingの5つの手法を実装した。 これらの手法は入力のプロンプトを洗練させ、曖昧さを減らし、モデルの精度を向上させることを目的としている。 研究結果から, 高精度かつ構造化により共通欠陥が著しく軽減され, LLM生成コードの信頼性が向上することが示唆された。

This study investigates the reliability of code generation by Large Language Models (LLMs), focusing on identifying and analyzing defects in the generated code. Despite the advanced capabilities of LLMs in automating code generation, ensuring the accuracy and functionality of the output remains a significant challenge. By using a structured defect classification method to understand their nature and origins this study categorizes and analyzes 367 identified defects from code snippets generated by LLMs, with a significant proportion being functionality and algorithm errors. These error categories indicate key areas where LLMs frequently fail, underscoring the need for targeted improvements. To enhance the accuracy of code generation, this paper implemented five prompt engineering techniques, including Scratchpad Prompting, Program of Thoughts Prompting, Chain-of-Thought Prompting, Chain of Code Prompting, and Structured Chain-of-Thought Prompting. These techniques were applied to refine the input prompts, aiming to reduce ambiguities and improve the models' accuracy rate. The research findings suggest that precise and structured prompting significantly mitigates common defects, thereby increasing the reliability of LLM-generated code.
翻訳日:2024-08-27 19:49:09 公開日:2024-08-23
# 未知から未知を学習する:Few-Shotオープンセット認識のための可変負のプロトタイプ生成器

Learning Unknowns from Unknowns: Diversified Negative Prototypes Generator for Few-Shot Open-Set Recognition ( http://arxiv.org/abs/2408.13373v1 )

ライセンス: Link先を確認
Zhenyu Zhang, Guangyao Chen, Yixiong Zou, Yuhua Li, Ruixuan Li, (参考訳) Few-shot Open-set Recognition (FSOR) は、既知のクラスを認識し、ラベル付きデータに制限のある未知のクラスを識別するモデルを必要とする課題である。 既存のアプローチ、特に負のプロトタイプベースのメソッドは、既知のクラスデータのみに基づく負のプロトタイプを生成する。 しかし、未知空間は無限であり、既知の空間は有限であるため、これらの手法は限定表現能力に悩まされる。 この制限に対処するため、我々は「未知の未知を学習する」という原則を取り入れた新しいアプローチを「textbf{D}iversified \textbf{N}egative \textbf{P}rototypes \textbf{G}enerator (DNPG)」と呼ぶ。 提案手法は, 基本クラスから学習した未知の空間情報を利用して, 新規クラスのより代表的な負のプロトタイプを生成する。 事前学習フェーズでは、基底クラスの未知空間表現を学習する。 この表現はクラス間の関係とともにメタラーニングプロセスで利用され、新規クラスの否定的なプロトタイプを構築する。 プロトタイプの崩壊を防止し,各種データ構成への適応性を確保するため,Swap Alignment (SA)モジュールを導入する。 我々のDNPGモデルは、未知空間から学習することで、より広い未知空間をカバーする負のプロトタイプを生成し、3つの標準FSORデータセット上で最先端のパフォーマンスを達成する。

Few-shot open-set recognition (FSOR) is a challenging task that requires a model to recognize known classes and identify unknown classes with limited labeled data. Existing approaches, particularly Negative-Prototype-Based methods, generate negative prototypes based solely on known class data. However, as the unknown space is infinite while the known space is limited, these methods suffer from limited representation capability. To address this limitation, we propose a novel approach, termed \textbf{D}iversified \textbf{N}egative \textbf{P}rototypes \textbf{G}enerator (DNPG), which adopts the principle of "learning unknowns from unknowns." Our method leverages the unknown space information learned from base classes to generate more representative negative prototypes for novel classes. During the pre-training phase, we learn the unknown space representation of the base classes. This representation, along with inter-class relationships, is then utilized in the meta-learning process to construct negative prototypes for novel classes. To prevent prototype collapse and ensure adaptability to varying data compositions, we introduce the Swap Alignment (SA) module. Our DNPG model, by learning from the unknown space, generates negative prototypes that cover a broader unknown space, thereby achieving state-of-the-art performance on three standard FSOR datasets.
翻訳日:2024-08-27 19:49:09 公開日:2024-08-23
# リサイクリング・リユース・リサイクリング:構成強化学習のためのカテゴリ

Reduce, Reuse, Recycle: Categories for Compositional Reinforcement Learning ( http://arxiv.org/abs/2408.13376v1 )

ライセンス: Link先を確認
Georgios Bakirtzis, Michail Savvas, Ruihan Zhao, Sandeep Chinchali, Ufuk Topcu, (参考訳) 強化学習では、複数のタスクから結合性のある実行可能シーケンスを形成することでタスク構成を実行することは依然として困難である。 しかしながら、タスクを(分解する)能力は、複雑な振る舞いを学習できるロボットシステムの開発におけるリンチピンである。 しかし、構成強化学習には、問題空間の高次元性、報酬の不足、タスク構成後のシステム堅牢性の欠如など、困難が伴う。 これらの課題を克服するために、我々は圏論のプリズム(構造とその構成関係を探求する数学的分野)を通してタスク構成を考察する。 マルコフ決定過程のカテゴリー的性質は、複雑なタスクを管理可能なサブタスクに解き放つことで、次元性の戦略的削減を可能にし、よりトラクタブルな報酬構造を促進し、システムの堅牢性を高める。 複雑なロボットアームタスクを学習する際に、スキルの削減、再利用、リサイクルを可能にして強化学習のカテゴリー理論を支持する実験結果が得られた。

In reinforcement learning, conducting task composition by forming cohesive, executable sequences from multiple tasks remains challenging. However, the ability to (de)compose tasks is a linchpin in developing robotic systems capable of learning complex behaviors. Yet, compositional reinforcement learning is beset with difficulties, including the high dimensionality of the problem space, scarcity of rewards, and absence of system robustness after task composition. To surmount these challenges, we view task composition through the prism of category theory -- a mathematical discipline exploring structures and their compositional relationships. The categorical properties of Markov decision processes untangle complex tasks into manageable sub-tasks, allowing for strategical reduction of dimensionality, facilitating more tractable reward structures, and bolstering system robustness. Experimental results support the categorical theory of reinforcement learning by enabling skill reduction, reuse, and recycling when learning complex robotic arm tasks.
翻訳日:2024-08-27 19:49:09 公開日:2024-08-23
# DrugAgent: 大規模言語モデルに基づく推論による説明可能な薬物再資源化剤

DrugAgent: Explainable Drug Repurposing Agent with Large Language Model-based Reasoning ( http://arxiv.org/abs/2408.13378v1 )

ライセンス: Link先を確認
Yoshitaka Inoue, Tianci Song, Tianfan Fu, (参考訳) 薬物再資源化は、既存の薬物の新しい治療の可能性を特定することによって、薬物開発を加速するための有望な道を提供する。 本稿では,最先端の機械学習技術と知識統合を用いた医薬品再調達プロセスを強化するためのマルチエージェントフレームワークを提案する。 AIエージェントは、ロバストドラッグ・ターゲット・インタラクション(DTI)モデル、知識グラフエージェントは、ドラッグ・ジェネティック・インタラクション・データベース(DGIdb)、ドラッグバンク、比較トキシコゲノミクス・データベース(CTD)、および化学の相互作用のための検索ツール(STITCH)を使用して、DTIを体系的に抽出し、検索エージェントはバイオメディカル文献と相互作用して、計算予測を注釈し、検証する。 これらのエージェントからの出力を統合することで、外部データベースを含む多様なデータソースを効果的に活用し、実行可能な再資源化候補を提案する。 薬物と薬物の相互作用を予測できるだけでなく、従来の薬物発見手法にかかわる時間とコストを削減できる可能性を示す予備的な研究結果が得られた。 本稿では, バイオメディカル研究におけるマルチエージェントシステムのスケーラビリティと, 薬物再資源化におけるイノベーションの推進における役割について述べる。 提案手法は, 薬物再資源化の可能性を予測する既存の手法に勝るだけでなく, より効率的かつ費用対効果の高い薬物発見プロセスの道を開くことができる。

Drug repurposing offers a promising avenue for accelerating drug development by identifying new therapeutic potentials of existing drugs. In this paper, we propose a multi-agent framework to enhance the drug repurposing process using state-of-the-art machine learning techniques and knowledge integration. Our framework comprises several specialized agents: an AI Agent trains robust drug-target interaction (DTI) models; a Knowledge Graph Agent utilizes the drug-gene interaction database (DGIdb), DrugBank, Comparative Toxicogenomics Database (CTD), and Search Tool for Interactions of Chemicals (STITCH) to systematically extract DTIs; and a Search Agent interacts with biomedical literature to annotate and verify computational predictions. By integrating outputs from these agents, our system effectively harnesses diverse data sources, including external databases, to propose viable repurposing candidates. Preliminary results demonstrate the potential of our approach in not only predicting drug-disease interactions but also in reducing the time and cost associated with traditional drug discovery methods. This paper highlights the scalability of multi-agent systems in biomedical research and their role in driving innovation in drug repurposing. Our approach not only outperforms existing methods in predicting drug repurposing potential but also provides interpretable results, paving the way for more efficient and cost-effective drug discovery processes.
翻訳日:2024-08-27 19:49:09 公開日:2024-08-23
# N-DriverMotion: イベントベースカメラと直接訓練されたスパイキングニューラルネットワークを用いたドライバモーション学習と予測

N-DriverMotion: Driver motion learning and prediction using an event-based camera and directly trained spiking neural networks ( http://arxiv.org/abs/2408.13379v1 )

ライセンス: Link先を確認
Hyo Jong Chung, Byungkon Kang, Yoonseok Yang, (参考訳) 運転者の運動認識は運転システムの安全性を確保する主要な要因である。 本稿では,ドライバーの動きを学習し,予測する新しいシステムと,ニューロモルフィック視覚システムで新たに収集したイベントベース高解像度データセットN-DriverMotionを提案する。 システムは、スパイク入力と効率的なスパイキングニューラルネットワーク(SNN)を表す最初の高解像度ドライバモーションデータセットを生成し、ドライバのジェスチャーのトレーニングおよび予測に有効であるイベントベースのカメラを含む。 イベントデータセットは、方向(前、側)、照明(明、中、暗)、参加者によって分類された13のドライバー動作カテゴリで構成されている。 提案した新しい4層畳み込みニューラルネットワーク(CSNN)は,時間を要する前処理を伴わずに,高分解能データセットを直接訓練した。 これにより、高解像度のイベントベースストリーム上でのリアルタイム推論のためのデバイス上のSNNへの効率的な適応が可能になる。 視覚処理にニューラルネットワークを採用した最近のジェスチャー認識システムと比較して、提案されたニューロモルフィック視覚システムは、CSNNアーキテクチャによるドライバ動作の認識において、同等の精度94.04\%を達成する。 提案したCSNNとデータセットは、効率的なニューラルネットワークアーキテクチャを必要とする自動運転車やエッジデバイスに対して、より安全で効率的な運転監視システムを開発するために使用することができる。

Driver motion recognition is a principal factor in ensuring the safety of driving systems. This paper presents a novel system for learning and predicting driver motions and an event-based high-resolution (1280x720) dataset, N-DriverMotion, newly collected to train on a neuromorphic vision system. The system comprises an event-based camera that generates the first high-resolution driver motion dataset representing spike inputs and efficient spiking neural networks (SNNs) that are effective in training and predicting the driver's gestures. The event dataset consists of 13 driver motion categories classified by direction (front, side), illumination (bright, moderate, dark), and participant. A novel simplified four-layer convolutional spiking neural network (CSNN) that we proposed was directly trained using the high-resolution dataset without any time-consuming preprocessing. This enables efficient adaptation to on-device SNNs for real-time inference on high-resolution event-based streams. Compared with recent gesture recognition systems adopting neural networks for vision processing, the proposed neuromorphic vision system achieves comparable accuracy, 94.04\%, in recognizing driver motions with the CSNN architecture. Our proposed CSNN and the dataset can be used to develop safer and more efficient driver monitoring systems for autonomous vehicles or edge devices requiring an efficient neural network architecture.
翻訳日:2024-08-27 19:49:09 公開日:2024-08-23
# MICM:Few-shot学習の強化のための教師なし事前訓練の再考

MICM: Rethinking Unsupervised Pretraining for Enhanced Few-shot Learning ( http://arxiv.org/abs/2408.13385v1 )

ライセンス: Link先を確認
Zhenyu Zhang, Guangyao Chen, Yixiong Zou, Zhimeng Huang, Yuhua Li, Ruixuan Li, (参考訳) 人間は限られた数のラベル付きサンプルから素早く学習する能力を持っている。 Unsupervised Few-Shot Learning (U-FSL)は、最初のトレーニングフェーズにおける注釈付きデータセットへの依存を減らすことで、この分割を橋渡ししようとしている。 本研究では,まず,マスクド画像モデリング(MIM)とコントラスト学習(CL)が数ショット学習タスクに与える影響を定量的に評価する。 本研究は,MIM と CL の識別能力および一般化能力の限界に注目し,U-FSL の文脈におけるそれらの過小評価に寄与することを示した。 教師なし事前学習における一般化と差別性の間のトレードオフに対処するために,マスク付き画像コントラストモデリング(MICM)という新しいパラダイムを導入する。 MICMは、CLの目標となる物体学習強度とMIMの一般化された視覚特徴学習能力とを創造的に組み合わせ、下流数ショット学習推論におけるその効果を著しく向上させる。 広汎な実験分析によりMICMの利点が確認され、数ショット学習における一般化と識別能力の両面で有意な改善が示された。 総合的な定量的評価はMICMの優位性をさらに裏付けるものであり、MICMに基づく2段階のU-FSLフレームワークが既存の先行ベースラインを著しく上回ることを示す。

Humans exhibit a remarkable ability to learn quickly from a limited number of labeled samples, a capability that starkly contrasts with that of current machine learning systems. Unsupervised Few-Shot Learning (U-FSL) seeks to bridge this divide by reducing reliance on annotated datasets during initial training phases. In this work, we first quantitatively assess the impacts of Masked Image Modeling (MIM) and Contrastive Learning (CL) on few-shot learning tasks. Our findings highlight the respective limitations of MIM and CL in terms of discriminative and generalization abilities, which contribute to their underperformance in U-FSL contexts. To address these trade-offs between generalization and discriminability in unsupervised pretraining, we introduce a novel paradigm named Masked Image Contrastive Modeling (MICM). MICM creatively combines the targeted object learning strength of CL with the generalized visual feature learning capability of MIM, significantly enhancing its efficacy in downstream few-shot learning inference. Extensive experimental analyses confirm the advantages of MICM, demonstrating significant improvements in both generalization and discrimination capabilities for few-shot learning. Our comprehensive quantitative evaluations further substantiate the superiority of MICM, showing that our two-stage U-FSL framework based on MICM markedly outperforms existing leading baselines.
翻訳日:2024-08-27 19:49:09 公開日:2024-08-23
# 時空における量子過程の実現の基本的限界

Fundamental limits for realising quantum processes in spacetime ( http://arxiv.org/abs/2408.13387v1 )

ライセンス: Link先を確認
V. Vilasini, Renato Renner, (参考訳) 量子論的理論と相対論的理論の間の界面を理解することは、特に因果関係のような重要な物理的概念がこれらの理論において異なる形式を取ることを考えると、基礎的かつ実践的な進歩に不可欠である。 ベルのノーゴー定理は、相対論的因果原理から生じる古典的過程の限界を明らかにする。 量子過程に類似した基本極限が存在するかどうかを考えると、古典的背景時空で実現可能な量子実験のノーゴー定理を導出する。 量子論で許容される一般的なプロセスは、不定因数順序(ICO)を含むが、これも最近の実験の対象となっている。 我々の最初の定理は、相対論的因果性に反しないICOプロセスの実現は、時空におけるシステムの非局在化を伴わなければならないことを示唆している。 第二の定理は、ICO過程のそのような実現には、定性的かつ非巡回因果順序過程の観点でよりきめ細かな記述が存在することを示している。 これにより、因果関係の量子的相対論的概念を一般化し、特に顕著なICOプロセスである量子スイッチの実験的実現に適用することができる。 古典時空で何が達成できないかを示すことによって、これらの非ゴーの結果は、古典時空を超えた相対論的体制における将来の量子実験において因果性と情報処理がどのように異なるかについての洞察を与える。

Understanding the interface between quantum and relativistic theories is crucial for fundamental and practical advances, especially given that key physical concepts such as causality take different forms in these theories. Bell's no-go theorem reveals limits on classical processes, arising from relativistic causality principles. Considering whether similar fundamental limits exist on quantum processes, we derive no-go theorems for quantum experiments realisable in classical background spacetimes. We account for general processes allowed by quantum theory, including those with indefinite causal order (ICO), which have also been the subject of recent experiments. Our first theorem implies that realisations of ICO processes that do not violate relativistic causality must involve the non-localization of systems in spacetime. The second theorem shows that for any such realisation of an ICO process, there exists a more fine-grained description in terms of a definite and acyclic causal order process. This enables a general reconciliation of quantum and relativistic notions of causality and, in particular, applies to experimental realisations of the quantum switch, a prominent ICO process. By showing what is impossible to achieve in classical spacetimes, these no-go results also offer insights into how causality and information processing may differ in future quantum experiments in relativistic regimes beyond classical spacetimes.
翻訳日:2024-08-27 19:49:09 公開日:2024-08-23
# ReCon:Quantum Generative Adversarial NetworksのためのアナログRydbergAtom量子コンピュータの再構成

ReCon: Reconfiguring Analog Rydberg Atom Quantum Computers for Quantum Generative Adversarial Networks ( http://arxiv.org/abs/2408.13389v1 )

ライセンス: Link先を確認
Nicholas S. DiBrita, Daniel Leeds, Yuqian Huo, Jason Ludmir, Tirthak Patel, (参考訳) 量子コンピューティングは、GAN(Generative Adversarial Network)を用いた生成タスクを含む、いくつかの機械学習タスクにおいて、理論的にスピードアップの可能性を示している。 量子コンピュータは様々な種類の技術で実装されているが、近年、アナログRydberg原子量子コンピュータは、再構成可能な量子ビット(量子ビット)位置やマルチキュービット演算などの望ましい特性を持つことが示されている。 この技術の特性を活用するために、アナログRydberg原子量子コンピュータ上で量子GANを実装する最初の研究であるReConを提案する。 シミュレーションと実コンピュータ実行による評価は,超伝導量子ビット技術に実装された最先端技術よりも,生成画像の品質(Frechet Inception Distance (FID) を用いて測定)が33%向上したことを示している。

Quantum computing has shown theoretical promise of speedup in several machine learning tasks, including generative tasks using generative adversarial networks (GANs). While quantum computers have been implemented with different types of technologies, recently, analog Rydberg atom quantum computers have been demonstrated to have desirable properties such as reconfigurable qubit (quantum bit) positions and multi-qubit operations. To leverage the properties of this technology, we propose ReCon, the first work to implement quantum GANs on analog Rydberg atom quantum computers. Our evaluation using simulations and real-computer executions shows 33% better quality (measured using Frechet Inception Distance (FID)) in generated images than the state-of-the-art technique implemented on superconducting-qubit technology.
翻訳日:2024-08-27 19:49:09 公開日:2024-08-23
# 高忠実度テキストベース編集のためのタスク指向拡散インバージョン

Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing ( http://arxiv.org/abs/2408.13395v1 )

ライセンス: Link先を確認
Yangyang Xu, Wenqi Shao, Yong Du, Haiming Zhu, Yang Zhou, Ping Luo, Shengfeng He, (参考訳) テキスト誘導拡散モデルの最近の進歩は、強力な画像操作能力を解き放つ一方で、実際の画像の再構成精度と編集可能性のバランスは重要な課題である。 本稿では、拡張された \(\mathcal{P}^*\) 空間内の即時埋め込みを最適化することにより、特定の編集タスクに適した実画像を反転・編集する新しいフレームワークである \textbf{T}ask-\textbf{O}riented \textbf{D}iffusion \textbf{I}nversion (\textbf{TODInv})を紹介する。 異なるU-Netレイヤとタイムステップにまたがる異なる埋め込みを活用することで、TODInvは相互最適化を通じてインバージョンと編集をシームレスに統合し、高い忠実性と正確な編集性を確保する。 この階層的な編集機構は、タスクを構造、外観、グローバルな編集に分類し、現在の編集タスクの影響を受けない埋め込みだけを最適化する。 ベンチマークデータセットの大規模な実験により、TODInvは既存のメソッドよりも優れたパフォーマンスを示し、定量化と質的な拡張の両方を提供しながら、その汎用性を数ステップの拡散モデルで示している。

Recent advancements in text-guided diffusion models have unlocked powerful image manipulation capabilities, yet balancing reconstruction fidelity and editability for real images remains a significant challenge. In this work, we introduce \textbf{T}ask-\textbf{O}riented \textbf{D}iffusion \textbf{I}nversion (\textbf{TODInv}), a novel framework that inverts and edits real images tailored to specific editing tasks by optimizing prompt embeddings within the extended \(\mathcal{P}^*\) space. By leveraging distinct embeddings across different U-Net layers and time steps, TODInv seamlessly integrates inversion and editing through reciprocal optimization, ensuring both high fidelity and precise editability. This hierarchical editing mechanism categorizes tasks into structure, appearance, and global edits, optimizing only those embeddings unaffected by the current editing task. Extensive experiments on benchmark dataset reveal TODInv's superior performance over existing methods, delivering both quantitative and qualitative enhancements while showcasing its versatility with few-step diffusion model.
翻訳日:2024-08-27 19:49:09 公開日:2024-08-23
# 特徴結合の摂動:解釈可能なディープニューラルネットワークを目指して

Perturbation on Feature Coalition: Towards Interpretable Deep Neural Networks ( http://arxiv.org/abs/2408.13397v1 )

ライセンス: Link先を確認
Xuran Hu, Mingzhe Zhu, Zhenpeng Feng, Miloš Daković, Ljubiša Stanković, (参考訳) ディープニューラルネットワーク(DNN)の固有の“ブラックボックス”の性質は、その透明性と信頼性を損なう。 近年、説明可能なAI(XAI)が研究者の注目を集めている。 いくつかの摂動に基づく解釈が出現している。 しかしながら、これらのメソッドは、しばしば機能の依存関係を適切に考慮しない。 この問題を解決するために,ネットワークの深い情報を利用して相関した特徴を抽出する,特徴連立による摂動に基づく解釈を導入する。 そこで我々は,ネットワーク解釈のガイドとして,慎重に設計した一貫性損失を提案する。 本手法の有効性を検証するために,定量的および定性的な実験を行った。 コードはgithub.com/Teriri 1999/Perturebation-on-Feature-Coalitionで入手できる。

The inherent "black box" nature of deep neural networks (DNNs) compromises their transparency and reliability. Recently, explainable AI (XAI) has garnered increasing attention from researchers. Several perturbation-based interpretations have emerged. However, these methods often fail to adequately consider feature dependencies. To solve this problem, we introduce a perturbation-based interpretation guided by feature coalitions, which leverages deep information of network to extract correlated features. Then, we proposed a carefully-designed consistency loss to guide network interpretation. Both quantitative and qualitative experiments are conducted to validate the effectiveness of our proposed method. Code is available at github.com/Teriri1999/Perturebation-on-Feature-Coalition.
翻訳日:2024-08-27 19:39:20 公開日:2024-08-23
# Airbnbにおけるロケーション検索の転換 - ヒューリスティックスから強化学習への旅

Transforming Location Retrieval at Airbnb: A Journey from Heuristics to Reinforcement Learning ( http://arxiv.org/abs/2408.13399v1 )

ライセンス: Link先を確認
Dillon Davis, Huiji Gao, Weiwei Guo, Thomas Legrand, Malay Haldar, Alex Deng, Han Zhao, Liwei He, Sanjeev Katariya, (参考訳) Airbnbの検索システムは、進化を続けるにつれて、多くのユニークな課題を抱えている。 我々は、地理、家庭の多様性、そして様々な好みを持つゲストによってニュアンスされた市場を監督する。 多様なゲストニーズに対応可能な効率的な検索システムを構築する一方で、関連する住宅を展示することはAirbnbの成功の核心にある。 Airbnbの検索には、他のレコメンデーションや検索システムと並行して、多くの課題がある。 住宅一覧検索の検索クエリに関連するトポロジカルマップ領域を定義する必要がある。 本研究の目的は,機械学習に基づく位置情報検索プロダクトをゼロから構築する際の方法論,課題,および影響を実証することである。 適切な機械学習ベースのアプローチが欠如しているにもかかわらず、コールドスタート、一般化、微分、アルゴリズムバイアスに取り組む。 我々はこれらの課題を解決するためのヒューリスティックス、統計学、機械学習、強化学習アプローチの有効性について詳述する。

The Airbnb search system grapples with many unique challenges as it continues to evolve. We oversee a marketplace that is nuanced by geography, diversity of homes, and guests with a variety of preferences. Crafting an efficient search system that can accommodate diverse guest needs, while showcasing relevant homes lies at the heart of Airbnb's success. Airbnb search has many challenges that parallel other recommendation and search systems but it has a unique information retrieval problem, upstream of ranking, called location retrieval. It requires defining a topological map area that is relevant to the searched query for homes listing retrieval. The purpose of this paper is to demonstrate the methodology, challenges, and impact of building a machine learning based location retrieval product from the ground up. Despite the lack of suitable, prevalent machine learning based approaches, we tackle cold start, generalization, differentiation and algorithmic bias. We detail the efficacy of heuristics, statistics, machine learning, and reinforcement learning approaches to solve these challenges, particularly for systems that are often unexplored by current literature.
翻訳日:2024-08-27 19:39:20 公開日:2024-08-23
# LLaVaOLMoBitnet1B: Ternary LLM goes Multimodal!

LLaVaOLMoBitnet1B: Ternary LLM goes Multimodal! ( http://arxiv.org/abs/2408.13402v1 )

ライセンス: Link先を確認
Jainaveen Sundaram, Ravishankar Iyer, (参考訳) MM-LLM(Multimodal Large Language Models)は、過去1年で大幅に進歩し、タスク間で素晴らしいパフォーマンスを誇示している。 しかし、AIを真に民主化するためには、モデルは強力な能力を示し、ほとんどの人がアクセス可能な小さな計算フットプリント上で効率的に実行できなければならない。 LLaVaOLMoBitnet1B - Image(s)+Text入力を受信してコヒーレントなテキスト応答を生成する3次マルチモーダルLCM。 このモデルは、この分野のさらなる研究を促進するためのトレーニングスクリプトとともに、完全にオープンソースである。 この付随する技術レポートは、トレーニングプロセス、評価の詳細、第三次モデルに関連する課題、将来の機会を強調します。 モデルへのリンク:https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B

Multimodal Large Language Models (MM-LLMs) have seen significant advancements in the last year, demonstrating impressive performance across tasks. However, to truly democratize AI, models must exhibit strong capabilities and be able to run efficiently on small compute footprints accessible by most. Part of this quest, we introduce LLaVaOLMoBitnet1B - the first Ternary Multimodal LLM capable of accepting Image(s)+Text inputs to produce coherent textual responses. The model is fully open-sourced along with training scripts to encourage further research in this space. This accompanying technical report highlights the training process, evaluation details, challenges associated with ternary models and future opportunities. Link to the model: https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B
翻訳日:2024-08-27 19:39:20 公開日:2024-08-23
# 超コヒーレントGHzダイヤモンドスピン機械ラム波共振器

Ultracoherent GHz Diamond Spin-Mechanical Lamb Wave Resonators ( http://arxiv.org/abs/2408.13405v1 )

ライセンス: Link先を確認
Xinzhu Li, Ignas Lekavicius, Jens Noeckel, Hailin Wang, (参考訳) 本稿では, ダイヤモンドラム波共振器の基本圧縮モードを光勾配力で励起し, シリコン空孔中心へのひずみ結合による誘起振動, 特にシリコン空孔の光励起スペクトルにおけるフォノン側バンドを経由する全光学的手法の開発について報告する。 サイドバンド光干渉計は、従来の光学干渉計では有効ではない面内振動の検出にも用いられている。 これらの実験は、Q因子>10^7のGHz基本圧縮モードを7K付近の温度で実証し、スピン力学、特に電子スピンの音速空洞QEDに到達するための有望なプラットフォームを提供する。

We report the development of an all-optical approach that excites the fundamental compression mode in a diamond Lamb wave resonator with an optical gradient force and detects the induced vibrations via strain coupling to a silicon vacancy center, specifically, via phonon sidebands in the optical excitation spectrum of the silicon vacancy. Sideband optical interferometry has also been used for the detection of the in-plane mechanical vibrations, for which conventional optical interferometry is not effective. These experiments demonstrate a GHz fundamental compression mode with a Q-factor >10^7 at temperatures near 7 K, providing a promising platform for reaching the quantum regime of spin mechanics, especially phononic cavity QED of electron spins.
翻訳日:2024-08-27 19:39:20 公開日:2024-08-23
# 有限要素解析のためのLCM系エージェントの最適協調

Optimizing Collaboration of LLM based Agents for Finite Element Analysis ( http://arxiv.org/abs/2408.13406v1 )

ライセンス: Link先を確認
Chuan Tian, Yilei Zhang, (参考訳) 本稿では,Large Language Models (LLM) 内の複数のエージェント間の相互作用について,プログラミングおよびコーディングタスクの文脈で検討する。 我々はAutoGenフレームワークを利用してエージェント間の通信を容易にし、各セットアップの40のランダムランからの成功率に基づいて異なる構成を評価する。 本研究では,線形弾性問題の解法として有限要素法(FEM)を適用したフレキシブルな自動化フレームワークの開発に焦点をあてる。 本研究は,単にエージェントの数を増やすのではなく,エージェントの役割を最適化し,その責任を明確に定義することの重要性を強調した。 エージェント間の効果的な協調は、一般的なFEM課題に対処するために重要であることが示されている。 本研究は,LLMマルチエージェントシステムによるシミュレーション手法の計算自動化の促進と,今後の工学と人工知能の進歩の道を開くことの可能性を実証する。

This paper investigates the interactions between multiple agents within Large Language Models (LLMs) in the context of programming and coding tasks. We utilize the AutoGen framework to facilitate communication among agents, evaluating different configurations based on the success rates from 40 random runs for each setup. The study focuses on developing a flexible automation framework for applying the Finite Element Method (FEM) to solve linear elastic problems. Our findings emphasize the importance of optimizing agent roles and clearly defining their responsibilities, rather than merely increasing the number of agents. Effective collaboration among agents is shown to be crucial for addressing general FEM challenges. This research demonstrates the potential of LLM multi-agent systems to enhance computational automation in simulation methodologies, paving the way for future advancements in engineering and artificial intelligence.
翻訳日:2024-08-27 19:39:20 公開日:2024-08-23
# 混合結晶を有する超微細トラップイオン中における三脚構造を有する電磁誘導透明冷却

Electromagnetically-Induced-Transparency Cooling with a Tripod Structure in a Hyperfine Trapped Ion with Mixed-Species Crystals ( http://arxiv.org/abs/2408.13407v1 )

ライセンス: Link先を確認
J. J. Wu, P. -Y. Hou, S. D. Erickson, A. D. Brandt, Y. Wan, G. Zarantonello, D. C. Cole, A. C. Wilson, D. H. Slichter, D. Leibfried, (参考訳) 原子運動の冷却は、基本的な物理探査から量子情報やセンシングまで、原子物理学の多くの分野にとって重要なツールである。 閉じ込められたイオンに対して、電磁誘導透明(EIT)冷却は相対速度、低レーザーパワー、広帯域の冷却帯域に注意を払っている。 しかし, 冷却に用いるイオンの超微細構造が長いコヒーレンス時間を実現するアプリケーションでは, 標準的なEIT冷却を行うクローズド3レベルシステムを見つけることは困難である。 ここでは、25Mg+に余分なレーザー周波数を加えることで、EIT冷却に成功したことを実証し、非ゼロ核スピンを持つ任意のイオンにこの方法を適用することができる。 さらに, 混合種結晶9Be+ - 25Mg+と9Be+ - 25Mg+ - 9Be+を25Mg+イオンで同時冷却した。

Cooling of atomic motion is a crucial tool for many branches of atomic physics, ranging from fundamental physics explorations to quantum information and sensing. For trapped ions, electromagnetically-induced-transparency (EIT) cooling has received attention for the relative speed, low laser power requirements, and broad cooling bandwidth of the technique. However, in applications where the ion used for cooling has hyperfine structure to enable long coherence times, it is difficult to find a closed three-level system in which to perform standard EIT cooling. Here, we demonstrate successful EIT cooling on 25Mg+ by the addition of an extra laser frequency; this method can be applied to any ion with non-zero nuclear spin. Furthermore, we demonstrate simultaneous EIT cooling of all axial modes in mixed-species crystals 9Be+ - 25Mg+ and 9Be+ - 25Mg+ - 9Be+ through the 25Mg+ ion.
翻訳日:2024-08-27 19:39:20 公開日:2024-08-23
# AQIと気象特性に基づく機械学習による太陽光発電予測

Predicting Solar Energy Generation with Machine Learning based on AQI and Weather Features ( http://arxiv.org/abs/2408.12476v2 )

ライセンス: Link先を確認
Arjun Shah, Varun Viswanath, Kashish Gandhi, Dr. Nilesh Madhukar Patil, (参考訳) 本稿では,効率的なグリッド統合に欠かせない,正確な太陽エネルギー予測モデルの必要性に対処する。 先進的な機械学習とディープラーニング技術を用いて,大気質指数と気象特性が太陽エネルギー生成に与える影響について検討する。 本手法は時系列モデリングを用い,パワートランスフォーメーションの正規化とゼロインフレードモデリングを新たに活用する。 様々な機械学習アルゴリズムとConv2D長短期記憶モデルに基づくディープラーニングモデルをこれらの変換に適用して正確な予測を行う。 その結果,大気質指数と気象特性による予測精度の向上が示された。 我々はコンブ2D長短期記憶モデルを用いた0.9691ドルR^2$スコア、0.18MAE、0.10RMSEを達成し、太陽エネルギー発生の時系列予測の強化における電力変換技術の革新を実証した。 このような結果は,太陽エネルギー予測のための大気質指数,気象特性,深層学習技術との相乗効果に関する貴重な知見に寄与する。

This paper addresses the pressing need for an accurate solar energy prediction model, which is crucial for efficient grid integration. We explore the influence of the Air Quality Index and weather features on solar energy generation, employing advanced Machine Learning and Deep Learning techniques. Our methodology uses time series modeling and makes novel use of power transform normalization and zero-inflated modeling. Various Machine Learning algorithms and Conv2D Long Short-Term Memory model based Deep Learning models are applied to these transformations for precise predictions. Results underscore the effectiveness of our approach, demonstrating enhanced prediction accuracy with Air Quality Index and weather features. We achieved a 0.9691 $R^2$ Score, 0.18 MAE, 0.10 RMSE with Conv2D Long Short-Term Memory model, showcasing the power transform technique's innovation in enhancing time series forecasting for solar energy generation. Such results help our research contribute valuable insights to the synergy between Air Quality Index, weather features, and Deep Learning techniques for solar energy prediction.
翻訳日:2024-08-27 12:32:31 公開日:2024-08-23
# Sapiens: 人間の視覚モデルの基礎

Sapiens: Foundation for Human Vision Models ( http://arxiv.org/abs/2408.12569v2 )

ライセンス: Link先を確認
Rawal Khirodkar, Timur Bagautdinov, Julieta Martinez, Su Zhaoen, Austin James, Peter Selednik, Stuart Anderson, Shunsuke Saito, (参考訳) 2次元ポーズ推定、身体部分分割、深度推定、表面正規予測の4つの基本的人間中心視覚タスクのモデルであるサピエンスを提示する。 われわれのモデルは1Kの高解像度推論をネイティブにサポートしており、3億枚以上の人体画像で事前訓練された微調整モデルにより、個々のタスクに非常に容易に適応できる。 計算予算が同じであるので、人間の画像のキュレートされたデータセットでの自己教師付き事前トレーニングは、多種多様な人間中心のタスクのパフォーマンスを著しく向上させる。 得られたモデルは、ラベル付きデータが不足している場合や完全に合成されている場合であっても、Wild内のデータに対する顕著な一般化を示す。 私たちのシンプルなモデル設計はスケーラビリティももたらします - 0.3から20億までのパラメータ数をスケールすることで、タスク間のモデルパフォーマンスが向上します。 Sapiensは、さまざまな人間中心のベンチマークで、既存のベースラインを一貫して上回っている。 我々は,Humans-5K (pose) が7.6mAP,Humans-2K (part-seg) が17.1mIoU,Hi4D (deepth) が22.4%,Human2 (normal) が53.5%,Human2 (state-of-the-art) が53.5%,Human2 (state-of-the-art) が7.6mAP,Humans-2K (part-seg) よりも大幅に改善された。 プロジェクトページ: $\href{https://about.meta.com/realitylabs/codecavatars/sapiens}{\text{this https URL}}$

We present Sapiens, a family of models for four fundamental human-centric vision tasks - 2D pose estimation, body-part segmentation, depth estimation, and surface normal prediction. Our models natively support 1K high-resolution inference and are extremely easy to adapt for individual tasks by simply fine-tuning models pretrained on over 300 million in-the-wild human images. We observe that, given the same computational budget, self-supervised pretraining on a curated dataset of human images significantly boosts the performance for a diverse set of human-centric tasks. The resulting models exhibit remarkable generalization to in-the-wild data, even when labeled data is scarce or entirely synthetic. Our simple model design also brings scalability - model performance across tasks improves as we scale the number of parameters from 0.3 to 2 billion. Sapiens consistently surpasses existing baselines across various human-centric benchmarks. We achieve significant improvements over the prior state-of-the-art on Humans-5K (pose) by 7.6 mAP, Humans-2K (part-seg) by 17.1 mIoU, Hi4D (depth) by 22.4% relative RMSE, and THuman2 (normal) by 53.5% relative angular error. Project page: $\href{https://about.meta.com/realitylabs/codecavatars/sapiens}{\text{this https URL}}$.
翻訳日:2024-08-27 12:32:31 公開日:2024-08-23
# BERT-ASC:感覚分析における暗黙の学習のための補助文構築

BERT-ASC: Auxiliary-Sentence Construction for Implicit Aspect Learning in Sentiment Analysis ( http://arxiv.org/abs/2203.11702v3 )

ライセンス: Link先を確認
Murtadha Ahmed, Bo Wen, Shengfeng Pan, Jianlin Su, Luo Ao, Yunfeng Liu, (参考訳) アスペクトベースの感情分析(ABSA)は、テキストを一連の側面に関連付け、それぞれの感情の極性を推測することを目的としている。 State-of-the-artアプローチは、コーパスからアスペクト固有の表現を学ぶことに焦点を当てた、微調整された事前訓練された言語モデルに基づいて構築されている。 しかし、アスペクトはしばしば暗黙的に表現され、実世界のシナリオでは不十分な十分なラベル付き例なしで暗黙のマッピングを困難にしている。 本稿ではアスペクト分類とアスペクトベース感情サブタスクに対処する統合フレームワークを提案する。 コーパスのセマンティック情報を用いて暗黙的側面のための補助文を構築する機構を導入する。 次に、BERTはアスペクト自体ではなく、この補助文に応答してアスペクト固有の表現を学ぶことを推奨する。 ABSAおよびTargeted-ABSAタスクの実際のベンチマークデータセットに対するアプローチを評価する。 実験の結果,すべてのデータセットにおけるアスペクト分類とアスペクトベース感情において,最先端のパフォーマンスを継続的に達成し,大幅な改善率を実現していることがわかった。 BERT-ASCコードはhttps://github.com/amurtadha/BERT-ASCで公開されている。

Aspect-based sentiment analysis (ABSA) aims to associate a text with a set of aspects and infer their respective sentimental polarities. State-of-the-art approaches are built on fine-tuning pre-trained language models, focusing on learning aspect-specific representations from the corpus. However, aspects are often expressed implicitly, making implicit mapping challenging without sufficient labeled examples, which may be scarce in real-world scenarios. This paper proposes a unified framework to address aspect categorization and aspect-based sentiment subtasks. We introduce a mechanism to construct an auxiliary-sentence for the implicit aspect using the corpus's semantic information. We then encourage BERT to learn aspect-specific representation in response to this auxiliary-sentence, not the aspect itself. We evaluate our approach on real benchmark datasets for both ABSA and Targeted-ABSA tasks. Our experiments show that it consistently achieves state-of-the-art performance in aspect categorization and aspect-based sentiment across all datasets, with considerable improvement margins. The BERT-ASC code is available at https://github.com/amurtadha/BERT-ASC.
翻訳日:2024-08-26 20:34:38 公開日:2024-08-23
# ランク付け学習のための悲観的オフポリティ最適化

Pessimistic Off-Policy Optimization for Learning to Rank ( http://arxiv.org/abs/2206.02593v4 )

ライセンス: Link先を確認
Matej Cief, Branislav Kveton, Michal Kompan, (参考訳) オフポリシー学習は、他のポリシによって収集されたデータを使用して、デプロイせずにポリシーを最適化するためのフレームワークである。 特にレコメンデーションシステムでは、ログデータの不均衡のため、いくつかの項目が推奨され、その結果、他の項目よりも頻繁にログされる。 これは、アクション空間が組合せ的であるため、アイテムのリストを推奨するときにさらに永続する。 この課題に対処するために、我々は、ランク付け学習のための悲観的な非政治最適化について研究する。 鍵となる考え方は、クリックモデルのパラメータの低い信頼境界を計算し、その値を最も悲観的な見積もりでリストを返すことである。 このアプローチは計算的に効率的であり、分析する。 我々はベイズ的かつ頻繁な変種について研究し、経験的ベイズを取り入れることで未知の事前の限界を克服する。 提案手法の実証的有効性を示すために,逆正当性スコアや不確かさを無視する非政治最適化手法との比較を行った。 私たちのアプローチはすべてのベースラインを上回り、堅牢かつ汎用的です。

Off-policy learning is a framework for optimizing policies without deploying them, using data collected by another policy. In recommender systems, this is especially challenging due to the imbalance in logged data: some items are recommended and thus logged more frequently than others. This is further perpetuated when recommending a list of items, as the action space is combinatorial. To address this challenge, we study pessimistic off-policy optimization for learning to rank. The key idea is to compute lower confidence bounds on parameters of click models and then return the list with the highest pessimistic estimate of its value. This approach is computationally efficient, and we analyze it. We study its Bayesian and frequentist variants and overcome the limitation of unknown prior by incorporating empirical Bayes. To show the empirical effectiveness of our approach, we compare it to off-policy optimizers that use inverse propensity scores or neglect uncertainty. Our approach outperforms all baselines and is both robust and general.
翻訳日:2024-08-26 20:34:38 公開日:2024-08-23
# パッチの線形結合は単一画像の認知に不合理な効果がある

Linear Combinations of Patches are Unreasonably Effective for Single-Image Denoising ( http://arxiv.org/abs/2212.00422v2 )

ライセンス: Link先を確認
Sébastien Herbreteau, Charles Kervrann, (参考訳) 過去10年間で、ディープニューラルネットワークは、ノイズ/クリーンなイメージペアからなるデータセットから学習することで、画像のデノーミングに革命をもたらし、大幅な精度向上を実現している。 しかし、この戦略は、十分に確立された弱点であるデータ品質のトレーニングに極めて依存している。 画像先行を外部から学習する必要性を軽減するため、外部辞書や訓練データセットを使わずに入力ノイズ画像の分析のみに基づいて、単一画像(例えば、自己監督的またはゼロショット)の手法が復調を行う。 本研究は, この制約下でのデノナイズのためのパッチの線形結合の有効性について検討する。 概念的には非常に単純ではあるが,パッチの線形結合は最先端の性能を達成するのに十分であることを示す。 提案したパラメトリック・アプローチは、組み合わせ重量の推定を導くために、複数のパイロット画像による二次的リスク近似に依存する。 ガウスノイズと実世界の雑音で人工的に劣化した画像に対する実験は、我々の手法が最も優れた単一画像デノイザと同等であり、最近のニューラルネットワークベースの技術より優れており、より高速で完全に解釈可能であることを示している。

In the past decade, deep neural networks have revolutionized image denoising in achieving significant accuracy improvements by learning on datasets composed of noisy/clean image pairs. However, this strategy is extremely dependent on training data quality, which is a well-established weakness. To alleviate the requirement to learn image priors externally, single-image (a.k.a., self-supervised or zero-shot) methods perform denoising solely based on the analysis of the input noisy image without external dictionary or training dataset. This work investigates the effectiveness of linear combinations of patches for denoising under this constraint. Although conceptually very simple, we show that linear combinations of patches are enough to achieve state-of-the-art performance. The proposed parametric approach relies on quadratic risk approximation via multiple pilot images to guide the estimation of the combination weights. Experiments on images corrupted artificially with Gaussian noise as well as on real-world noisy images demonstrate that our method is on par with the very best single-image denoisers, outperforming the recent neural network based techniques, while being much faster and fully interpretable.
翻訳日:2024-08-26 20:34:38 公開日:2024-08-23
# ラベルの進化とデジェネレーションのマッピング:単一点スーパービジョンによる赤外小ターゲット検出の学習

Mapping Degeneration Meets Label Evolution: Learning Infrared Small Target Detection with Single Point Supervision ( http://arxiv.org/abs/2304.01484v2 )

ライセンス: Link先を確認
Xinyi Ying, Li Liu, Yingqian Wang, Ruojing Li, Nuo Chen, Zaiping Lin, Weidong Sheng, Shilin Zhou, (参考訳) 近年,赤外線小ターゲット検出のための畳み込みニューラルネットワーク(CNN)の訓練が注目されている。 この問題に対処するため,本論文では,赤外小目標検出をポイントレベルの監視で実現するための最初の試みを行う。 興味深いことに、ポイントラベルによって監督されるトレーニングフェーズの間、CNNはまずターゲット近傍のピクセル群を分割し、徐々に収束して基底点ラベルを予測することを学習する。 この「マッピング・デジェネレーション(mapping degeneration)」現象に触発され,CNNの中間的予測を生かして,一点監視(leSPS)を用いたラベル進化というラベル進化フレームワークを提案する。 このようにして、ネットワーク予測は最終的に更新された擬似ラベルを近似することができ、CNNをエンドツーエンドで訓練するための画素レベルのターゲットマスクを得ることができる。 本手法の有効性を検証するため,洞察力のある可視化実験を行った。 実験結果から, LESPSを装着したCNNは, 対象マスクを対応する点ラベルからよく回収でき, また, 画素レベルのコンバウンド(IoU)とオブジェクトレベルの検出確率(Pd)で, 完全に監督された性能の70%以上を達成できることがわかった。 コードはhttps://github.com/XinyiYing/LESPSで入手できる。

Training a convolutional neural network (CNN) to detect infrared small targets in a fully supervised manner has gained remarkable research interests in recent years, but is highly labor expensive since a large number of per-pixel annotations are required. To handle this problem, in this paper, we make the first attempt to achieve infrared small target detection with point-level supervision. Interestingly, during the training phase supervised by point labels, we discover that CNNs first learn to segment a cluster of pixels near the targets, and then gradually converge to predict groundtruth point labels. Motivated by this "mapping degeneration" phenomenon, we propose a label evolution framework named label evolution with single point supervision (LESPS) to progressively expand the point label by leveraging the intermediate predictions of CNNs. In this way, the network predictions can finally approximate the updated pseudo labels, and a pixel-level target mask can be obtained to train CNNs in an end-to-end manner. We conduct extensive experiments with insightful visualizations to validate the effectiveness of our method. Experimental results show that CNNs equipped with LESPS can well recover the target masks from corresponding point labels, {and can achieve over 70% and 95% of their fully supervised performance in terms of pixel-level intersection over union (IoU) and object-level probability of detection (Pd), respectively. Code is available at https://github.com/XinyiYing/LESPS.
翻訳日:2024-08-26 20:28:29 公開日:2024-08-23
# AIの信頼性と意思決定品質:基礎,相互依存,介入の効果

AI Reliance and Decision Quality: Fundamentals, Interdependence, and the Effects of Interventions ( http://arxiv.org/abs/2304.08804v2 )

ライセンス: Link先を確認
Jakob Schoeffer, Johannes Jakubik, Michael Voessing, Niklas Kuehl, Gerhard Satzger, (参考訳) AI支援による意思決定では、ヒューマン・イン・ザ・ループ(Human-in-the-loop)を持つという中心的な約束は、間違ったレコメンデーションをオーバーライドすることでAIシステムを補完できることである。 しかし実際には、人間がAIレコメンデーションの正しさを評価できないことや、結果として間違ったアドバイスに固執したり、正しいアドバイスを無効にしたりすることはよくあります。 AIレコメンデーションに依存する異なる方法には、すぐに、しかし、決定品質への影響がある。 残念ながら、AIによる意思決定に関する現在の文献では、信頼と意思決定の質が不適切に混ざり合っていることが多い。 本研究では,人間とAIの相補性が達成可能な条件を特徴付けるとともに,信頼と意思決定の質の関係を解消し,形式化する。 信頼と意思決定の質が相互にどのように関係しているかを説明するために、視覚的枠組みを提案し、説明のような介入の効果を含む経験的発見の解釈に有用であることを示す。 我々の研究は、AIによる意思決定において、信頼行動と意思決定品質を区別することの重要性を強調している。

In AI-assisted decision-making, a central promise of having a human-in-the-loop is that they should be able to complement the AI system by overriding its wrong recommendations. In practice, however, we often see that humans cannot assess the correctness of AI recommendations and, as a result, adhere to wrong or override correct advice. Different ways of relying on AI recommendations have immediate, yet distinct, implications for decision quality. Unfortunately, reliance and decision quality are often inappropriately conflated in the current literature on AI-assisted decision-making. In this work, we disentangle and formalize the relationship between reliance and decision quality, and we characterize the conditions under which human-AI complementarity is achievable. To illustrate how reliance and decision quality relate to one another, we propose a visual framework and demonstrate its usefulness for interpreting empirical findings, including the effects of interventions like explanations. Overall, our research highlights the importance of distinguishing between reliance behavior and decision quality in AI-assisted decision-making.
翻訳日:2024-08-26 20:28:29 公開日:2024-08-23
# DiffLoad: 拡散モデルによる負荷予測の不確実性定量化

DiffLoad: Uncertainty Quantification in Load Forecasting with Diffusion Model ( http://arxiv.org/abs/2306.01001v3 )

ライセンス: Link先を確認
Zhixian Wang, Qingsong Wen, Chaoli Zhang, Liang Sun, Yi Wang, (参考訳) 電力需要予測は、単位コミットメントや経済派遣を含む電力システムの意思決定において重要な役割を担っている。 再生可能エネルギー源の統合と、新型コロナウイルスのパンデミックなどの外部イベントの発生により、負荷予測の不確実性が急速に高まっている。 負荷予測の不確実性は, てんかん性不確実性と失読性不確実性という2つのタイプに分けられる。 このような不確実性を分離することで、意思決定者は、その不確実性がどの程度あるかをよりよく理解し、次の意思決定に対する信頼を高めることができる。 本稿では, エピステミック不確かさを推定するための拡散型Seq2Seq構造を提案し, 強靭性付加コーシー分布を用いてアレタリック不確かさを推定する。 本手法は,負荷予測の精度を確保するだけでなく,2種類の不確実性を分離し,異なる負荷レベルに適用できることを示す。 関連するコードは \url{https://anonymous.4open.science/r/DiffLoad-4714/} にある。

Electrical load forecasting plays a crucial role in decision-making for power systems, including unit commitment and economic dispatch. The integration of renewable energy sources and the occurrence of external events, such as the COVID-19 pandemic, have rapidly increased uncertainties in load forecasting. The uncertainties in load forecasting can be divided into two types: epistemic uncertainty and aleatoric uncertainty. Separating these types of uncertainties can help decision-makers better understand where and to what extent the uncertainty is, thereby enhancing their confidence in the following decision-making. This paper proposes a diffusion-based Seq2Seq structure to estimate epistemic uncertainty and employs the robust additive Cauchy distribution to estimate aleatoric uncertainty. Our method not only ensures the accuracy of load forecasting but also demonstrates the ability to separate the two types of uncertainties and be applicable to different levels of loads. The relevant code can be found at \url{https://anonymous.4open.science/r/DiffLoad-4714/}.
翻訳日:2024-08-26 20:28:29 公開日:2024-08-23
# インテリジェント分析を用いたスマートシティにおけるIoTフレームワークによるインテリジェントエネルギー管理:複雑なネットワークとシステムに対する機械学習手法の適用

Intelligent Energy Management with IoT Framework in Smart Cities Using Intelligent Analysis: An Application of Machine Learning Methods for Complex Networks and Systems ( http://arxiv.org/abs/2306.05567v3 )

ライセンス: Link先を確認
Maryam Nikpour, Parisa Behvand Yousefi, Hadi Jafarzadeh, Kasra Danesh, Roya Shomali, Ahmad Gholizadeh Lonbar, Mohsen Ahmadi, (参考訳) この研究は、エネルギー消費の増大とエネルギー資源の枯渇、特にスマートな建物における課題に直面している。 効率的な建築維持の必要性とともにエネルギー需要が増大するにつれて、革新的なエネルギー管理ソリューションを探求することが不可欠となる。 スマートシティのエネルギー管理を目的としたIoT(Internet of Things)ベースのフレームワークを包括的にレビューし、これらの問題に対処する上でのIoTデバイスの役割を強調した。 我々のレビュー方法論は、インテリジェントエネルギー管理アプリケーションのためのIoTアーキテクチャとフレームワークに関する既存の文献を徹底的に分析する。 データを収集、保存するだけでなく、監視、制御、システムの効率向上のためのインテリジェントな分析をサポートするシステムに注力する。 さらに、これらのフレームワークがサードパーティアプリケーションの開発プラットフォームとして機能し、実用性と適応性を高める可能性についても検討する。 レビューの結果は、IoTベースのフレームワークがスマートな建物におけるエネルギー消費と環境への影響を低減させる大きな可能性を示唆している。 インテリジェントなメカニズムとソリューションを採用することで、これらのフレームワークは効率的なエネルギー管理を促進し、システムの効率性と持続可能性を向上させる。 これらの知見を踏まえ、エネルギー管理への戦略的アプローチとして、スマートな建物におけるIoTベースの無線センシングシステムのさらなる探索と導入を推奨する。 我々のレビューは、インテリジェント分析を取り入れることの重要性を強調し、IoTフレームワーク内でのサードパーティアプリケーションの開発が、進化するエネルギー需要とメンテナンスの課題を効率的に満たすことを可能にしている。

This study confronts the growing challenges of energy consumption and the depletion of energy resources, particularly in the context of smart buildings. As the demand for energy increases alongside the necessity for efficient building maintenance, it becomes imperative to explore innovative energy management solutions. We present a comprehensive review of Internet of Things (IoT)-based frameworks aimed at smart city energy management, highlighting the pivotal role of IoT devices in addressing these issues due to their compactness, sensing, measurement, and computing capabilities. Our review methodology encompasses a thorough analysis of existing literature on IoT architectures and frameworks for intelligent energy management applications. We focus on systems that not only collect and store data but also support intelligent analysis for monitoring, controlling, and enhancing system efficiency. Additionally, we examine the potential for these frameworks to serve as platforms for the development of third-party applications, thereby extending their utility and adaptability. The findings from our review indicate that IoT-based frameworks offer significant potential to reduce energy consumption and environmental impact in smart buildings. Through the adoption of intelligent mechanisms and solutions, these frameworks facilitate effective energy management, leading to improved system efficiency and sustainability. Considering these findings, we recommend further exploration and adoption of IoT-based wireless sensing systems in smart buildings as a strategic approach to energy management. Our review underscores the importance of incorporating intelligent analysis and enabling the development of third-party applications within the IoT framework to efficiently meet the evolving energy demands and maintenance challenges
翻訳日:2024-08-26 20:28:29 公開日:2024-08-23
# ニューラルネットワーク表現における識別性向上のためのタスク構造の導入

Leveraging Task Structures for Improved Identifiability in Neural Network Representations ( http://arxiv.org/abs/2306.14861v3 )

ライセンス: Link先を確認
Wenlin Chen, Julien Horwood, Juyeon Heo, José Miguel Hernández-Lobato, (参考訳) この研究は、タスクの分布にアクセスできる結果を考えることにより、教師あり学習における識別可能性の理論を拡張した。 このような場合、一般マルチタスク回帰設定において線形識別性が達成可能であることを示す。 さらに, 条件付き先行要因を定義するタスク分布の存在は, 線形識別可能性よりも強く, 有用である実潜在因子の順列化とスケーリングに対する同一性クラスを減少させることを示した。 重要なことは、これらのタスクに対して因果的構造を更に仮定すると、我々のアプローチは、単純な最大辺縁確率最適化を可能にし、因果的表現学習への潜在的下流応用を提案する。 実験により, この簡単な最適化手法により, 合成データと実世界の分子データの両方に対する標準表現の復元において, より一般的な教師なしモデルよりも優れていることがわかった。

This work extends the theory of identifiability in supervised learning by considering the consequences of having access to a distribution of tasks. In such cases, we show that linear identifiability is achievable in the general multi-task regression setting. Furthermore, we show that the existence of a task distribution which defines a conditional prior over latent factors reduces the equivalence class for identifiability to permutations and scaling of the true latent factors, a stronger and more useful result than linear identifiability. Crucially, when we further assume a causal structure over these tasks, our approach enables simple maximum marginal likelihood optimization, and suggests potential downstream applications to causal representation learning. Empirically, we find that this straightforward optimization procedure enables our model to outperform more general unsupervised models in recovering canonical representations for both synthetic data and real-world molecular data.
翻訳日:2024-08-26 20:28:29 公開日:2024-08-23
# 非古典的ネットワーク相関の階層的証明

Hierarchical certification of nonclassical network correlations ( http://arxiv.org/abs/2306.15717v4 )

ライセンス: Link先を確認
Ming-Xing Luo, Xue Yang, Alejandro Pozas-Kerstjens, (参考訳) 量子技術デバイスが利用可能になるにつれて、彼らの正しい非古典的行動を保証するためのツールがより重要になる。 これは、マルチパーティの暗号プロトコルが実装されるプラットフォームを構成する量子ネットワークにおいて特に重要であり、非古典性の保証がセキュリティ証明に変換される。 ネットワークに対して線形および非線形ベル様の不等式を導出する。 まず、自然は最終的に量子力学によって支配され、ネットワーク非局所性と完全なネットワーク非局所性との間を補間する階層を提供する。 次に、この仮定を挿入し、その結果が実験で証明できる結果になるようにします。

With the increased availability of quantum technological devices, it becomes more important to have tools to guarantee their correct nonclassical behavior. This is especially important for quantum networks, which constitute the platforms where multipartite cryptographic protocols will be implemented, and where guarantees of nonclassicality translate into security proofs. We derive linear and nonlinear Bell-like inequalities for networks, whose violation certifies the absence of a minimum number of classical sources in them. We do so, first, without assuming that nature is ultimately governed by quantum mechanics, providing a hierarchy interpolating between network nonlocality and full network nonlocality. Second we insert this assumption, which leads to results more amenable to certification in experiments.
翻訳日:2024-08-26 20:28:29 公開日:2024-08-23
# 人間の視覚的プライバシー保護のためのアイデンティティの隠蔽者、Seeingは信じていない

Seeing is not Believing: An Identity Hider for Human Vision Privacy Protection ( http://arxiv.org/abs/2307.00481v5 )

ライセンス: Link先を確認
Tao Wang, Yushu Zhang, Zixuan Yang, Xiangli Xiao, Hua Zhang, Zhongyun Hua, (参考訳) 大量の撮像された顔画像は、個人を特定するためにデータベースに格納される。 しかし、これらの画像は、個人の意志に反し、プライバシー侵害を引き起こす可能性のあるデータマネージャによって意図せずに観察することができる。 既存の保護スキームは識別可能性を維持することができるが、顔の外観はわずかに変化し、データマネージャによる元のアイデンティティの視覚的認識にはまだ影響を受けない。 本稿では,人間の視覚保護のための効果的なアイデンティティ隠蔽器を提案する。 具体的には、ID隠蔽機は2つの特別に設計されたモジュールから恩恵を受ける。 1) 仮想顔生成モジュールは、StyleGAN2の潜伏空間を操作することにより、新しい外観の仮想顔を生成する。 特に、仮想顔は元の顔と同様のパーシングマップを持ち、ヘッドポーズ検出などの他の視覚タスクをサポートする。 2) 外観伝達モジュールは、属性置換により仮想顔の外観を元の顔に転送する。 一方、識別情報は、非絡み合いネットワークの助けを借りてよく保存できる。 また,多様な要件を満たすため,多様性と背景保全が支援されている。 大規模な実験により,提案したアイデンティティ隠蔽装置は,プライバシ保護と識別可能性保護に優れた性能を発揮することが示された。

Massive captured face images are stored in the database for the identification of individuals. However, these images can be observed unintentionally by data managers, which is not at the will of individuals and may cause privacy violations. Existing protection schemes can maintain identifiability but slightly change the facial appearance, rendering it still susceptible to the visual perception of the original identity by data managers. In this paper, we propose an effective identity hider for human vision protection, which can significantly change appearance to visually hide identity while allowing identification for face recognizers. Concretely, the identity hider benefits from two specially designed modules: 1) The virtual face generation module generates a virtual face with a new appearance by manipulating the latent space of StyleGAN2. In particular, the virtual face has a similar parsing map to the original face, supporting other vision tasks such as head pose detection. 2) The appearance transfer module transfers the appearance of the virtual face into the original face via attribute replacement. Meanwhile, identity information can be preserved well with the help of the disentanglement networks. In addition, diversity and background preservation are supported to meet the various requirements. Extensive experiments demonstrate that the proposed identity hider achieves excellent performance on privacy protection and identifiability preservation.
翻訳日:2024-08-26 20:28:29 公開日:2024-08-23
# ロバストな特徴推論:スペクトル投影を用いたテスト時間防衛戦略

Robust Feature Inference: A Test-time Defense Strategy using Spectral Projections ( http://arxiv.org/abs/2307.11672v2 )

ライセンス: Link先を確認
Anurag Singh, Mahalakshmi Sabanayagam, Krikamol Muandet, Debarghya Ghoshdastidar, (参考訳) テストタイムディフェンスは、深層ニューラルネットワークの堅牢性を改善するために使われ、推論中の敵の例に使用される。 しかし、既存の手法では、敵のサンプルを検出し修正するために追加の訓練された分類器を必要とするか、あるいはテスト時に敵のサンプルに適応するためにモデルパラメータや入力に対して追加の複雑な最適化を行う必要があるため、ベースモデルと比較して推論時間が大幅に増加する。 本研究では,ロバスト特徴推論(RFI)と呼ばれる新しいテスト時間防衛戦略を提案する。 私たちが提示する特徴の堅牢性の概念に基づいて、鍵となるアイデアは、トレーニングされたモデルを最も堅牢な特徴空間に投影することで、非破壊的な攻撃に対する脆弱性を減らすことである。 一般化加法モデルにおいて最も頑健な特徴共分散の固有スペクトルの部分空間を理論的に特徴づける。 CIFAR-10, CIFAR-100, 小型ImageNet, ImageNetのいくつかのロバストネスベンチマークに対する広範な実験を行った。 また,RFIと適応型テストタイムディフェンスを比較し,提案手法の有効性を実証する。

Test-time defenses are used to improve the robustness of deep neural networks to adversarial examples during inference. However, existing methods either require an additional trained classifier to detect and correct the adversarial samples, or perform additional complex optimization on the model parameters or the input to adapt to the adversarial samples at test-time, resulting in a significant increase in the inference time compared to the base model. In this work, we propose a novel test-time defense strategy called Robust Feature Inference (RFI) that is easy to integrate with any existing (robust) training procedure without additional test-time computation. Based on the notion of robustness of features that we present, the key idea is to project the trained models to the most robust feature space, thereby reducing the vulnerability to adversarial attacks in non-robust directions. We theoretically characterize the subspace of the eigenspectrum of the feature covariance that is the most robust for a generalized additive model. Our extensive experiments on CIFAR-10, CIFAR-100, tiny ImageNet and ImageNet datasets for several robustness benchmarks, including the state-of-the-art methods in RobustBench show that RFI improves robustness across adaptive and transfer attacks consistently. We also compare RFI with adaptive test-time defenses to demonstrate the effectiveness of our proposed approach.
翻訳日:2024-08-26 20:28:29 公開日:2024-08-23
# 人間とLLM生成テキストにおける言語パターンの対比

Contrasting Linguistic Patterns in Human and LLM-Generated Text ( http://arxiv.org/abs/2308.09067v2 )

ライセンス: Link先を確認
Alberto Muñoz-Ortiz, Carlos Gómez-Rodríguez, David Vilares, (参考訳) 人書きニューステキストとは対照的な定量的解析を行い,3つの異なるファミリーと4つのサイズをカバーする6種類のLLMから出力されるLLMを比較検討した。 我々の分析は、形態学、統語学、心理計測学、社会言語学的な側面を含む、いくつかの測定可能な言語次元にまたがる。 結果は、人間とAIが生成したテキストの様々な測定可能な相違を明らかにした。 人間の文章は、より散在した文の長さの分布、より多様な語彙、依存関係と構成要素の明確な使用、より短い構成物、より最適化された依存距離を示す。 人間は(恐怖や嫌悪など)強い負の感情を示し、LLMが生成するテキストに比べて喜びを減らし、サイズが大きくなるにつれてこれらのモデルの毒性が増大する傾向にある。 LLMの出力は、人文よりも数字、記号、補助語(目的語を推奨する)が多用され、代名詞も多用される。 ヒトのテキストで広く見られる性差別バイアスは、LSMによっても表現され、それら全てにおいて1つを除いて拡大される。 LLMと人間の違いはLLMよりも大きい。

We conduct a quantitative analysis contrasting human-written English news text with comparable large language model (LLM) output from six different LLMs that cover three different families and four sizes in total. Our analysis spans several measurable linguistic dimensions, including morphological, syntactic, psychometric, and sociolinguistic aspects. The results reveal various measurable differences between human and AI-generated texts. Human texts exhibit more scattered sentence length distributions, more variety of vocabulary, a distinct use of dependency and constituent types, shorter constituents, and more optimized dependency distances. Humans tend to exhibit stronger negative emotions (such as fear and disgust) and less joy compared to text generated by LLMs, with the toxicity of these models increasing as their size grows. LLM outputs use more numbers, symbols and auxiliaries (suggesting objective language) than human texts, as well as more pronouns. The sexist bias prevalent in human text is also expressed by LLMs, and even magnified in all of them but one. Differences between LLMs and humans are larger than between LLMs.
翻訳日:2024-08-26 20:28:29 公開日:2024-08-23
# UniM$^2$AE: 自律運転における3次元認識のための統一3次元表現付きマルチモーダルマスク付きオートエンコーダ

UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving ( http://arxiv.org/abs/2308.10421v3 )

ライセンス: Link先を確認
Jian Zou, Tianyu Huang, Guanglei Yang, Zhenhua Guo, Tao Luo, Chun-Mei Feng, Wangmeng Zuo, (参考訳) Masked Autoencoders (MAE) は、強力な表現の学習において重要な役割を担い、自律運転に必要な様々な3D知覚タスクに優れた結果をもたらす。 現実の運転シナリオでは、総合的な環境認識のために複数のセンサーをデプロイするのが一般的です。 これらのセンサからマルチモーダル機能を統合することで、リッチで強力な機能を実現することができるが、異なるモダリティの相違により、この統合に対処するMAEメソッドには顕著な課題がある。 この研究は、自律運転における統一された表現空間に適したマルチモーダル・マスケッド・オートエンコーダに発展し、2つの異なるモーダルのより効率的な融合を開拓することを目的としている。 画像に固有の意味論とLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$^2$AEを提案する。 このモデルは主に2つの設計からなる、強力かつ単純でマルチモーダルな自己指導型事前学習フレームワークとして機能する。 まず、両モードの特徴を密集した3Dボリューム空間に投影し、鳥の目視(BEV)と高さ次元を複雑に結合する。 この拡張により、オブジェクトの正確な表現が可能になり、マルチモーダル機能の整列時の情報損失を低減することができる。 第2に,Multi-modal 3D Interactive Module (MMIM) が起動され,対話プロセス中の効率的なモーダル間相互作用が促進される。 UniM$^2$AEの有効性を実証したnuScenesデータセットにおいて,3Dオブジェクト検出とBEVマップのセグメンテーションをそれぞれ1.2\% NDSと6.5\% mIoUで強化した。 コードはhttps://github.com/hollow-503/UniM2AEで入手できる。

Masked Autoencoders (MAE) play a pivotal role in learning potent representations, delivering outstanding results across various 3D perception tasks essential for autonomous driving. In real-world driving scenarios, it's commonplace to deploy multiple sensors for comprehensive environment perception. Despite integrating multi-modal features from these sensors can produce rich and powerful features, there is a noticeable challenge in MAE methods addressing this integration due to the substantial disparity between the different modalities. This research delves into multi-modal Masked Autoencoders tailored for a unified representation space in autonomous driving, aiming to pioneer a more efficient fusion of two distinct modalities. To intricately marry the semantics inherent in images with the geometric intricacies of LiDAR point clouds, we propose UniM$^2$AE. This model stands as a potent yet straightforward, multi-modal self-supervised pre-training framework, mainly consisting of two designs. First, it projects the features from both modalities into a cohesive 3D volume space to intricately marry the bird's eye view (BEV) with the height dimension. The extension allows for a precise representation of objects and reduces information loss when aligning multi-modal features. Second, the Multi-modal 3D Interactive Module (MMIM) is invoked to facilitate the efficient inter-modal interaction during the interaction process. Extensive experiments conducted on the nuScenes Dataset attest to the efficacy of UniM$^2$AE, indicating enhancements in 3D object detection and BEV map segmentation by 1.2\% NDS and 6.5\% mIoU, respectively. The code is available at https://github.com/hollow-503/UniM2AE.
翻訳日:2024-08-26 20:18:44 公開日:2024-08-23
# 二重雑音線形システムのランダム化Kaczmarzアルゴリズムに関する一考察

A Note on Randomized Kaczmarz Algorithm for Solving Doubly-Noisy Linear Systems ( http://arxiv.org/abs/2308.16904v2 )

ライセンス: Link先を確認
El Houcine Bergou, Soumia Boucherouite, Aritra Dutta, Xin Li, Anna Ma, (参考訳) 大規模線形システムである$Ax=b$は、実際にしばしば発生し、効果的な反復解法を必要とする。 多くの場合、これらのシステムは運用上のエラーや故障したデータ収集プロセスのためにうるさい。 過去10年間、ランダム化カッツマルツ(RK)アルゴリズムは、そのようなシステムに対する効率的な反復解法として広く研究されてきた。 しかし、雑音系におけるRKの収束の研究は限定的であり、右辺ベクトルの計測ノイズを$b$とみなす。 残念ながら、実際には必ずしもそうではない。係数行列 $A$ もうるさい。 本稿では, 係数行列 $A$ が加法的あるいは乗法的ノイズを持ち, $b$ もノイジーであるとき, 線形系に対する RK の収束を解析する。 我々の分析では、$\tilde R=\| \tilde A^{\dagger} \|^2 \|\tilde A \|_F^2$ が RK の収束に影響を与える。 我々は、ノイズレス係数行列($A$)に関する情報を必要とせず、ノイズの異なる条件を考慮してRKの収束を制御できるので、我々の分析は堅牢で現実的に適用可能であると主張する。 理論的知見を裏付ける数値実験を行う。 ※

Large-scale linear systems, $Ax=b$, frequently arise in practice and demand effective iterative solvers. Often, these systems are noisy due to operational errors or faulty data-collection processes. In the past decade, the randomized Kaczmarz (RK) algorithm has been studied extensively as an efficient iterative solver for such systems. However, the convergence study of RK in the noisy regime is limited and considers measurement noise in the right-hand side vector, $b$. Unfortunately, in practice, that is not always the case; the coefficient matrix $A$ can also be noisy. In this paper, we analyze the convergence of RK for {\textit{doubly-noisy} linear systems, i.e., when the coefficient matrix, $A$, has additive or multiplicative noise, and $b$ is also noisy}. In our analyses, the quantity $\tilde R=\| \tilde A^{\dagger} \|^2 \|\tilde A \|_F^2$ influences the convergence of RK, where $\tilde A$ represents a noisy version of $A$. We claim that our analysis is robust and realistically applicable, as we do not require information about the noiseless coefficient matrix, $A$, and considering different conditions on noise, we can control the convergence of RK. {We perform numerical experiments to substantiate our theoretical findings.}
翻訳日:2024-08-26 20:18:44 公開日:2024-08-23
# 高対称状態のモノガミー

Monogamy of highly symmetric states ( http://arxiv.org/abs/2309.16655v2 )

ライセンス: Link先を確認
Rene Allerstorfer, Matthias Christandl, Dmitry Grinko, Ion Nechita, Maris Ozols, Denis Rochette, Philip Verduyn Lunel, (参考訳) 我々は、Werner、等方性、およびBrauer状態に焦点をあて、完備グラフ上の他の粒子と同様に絡み合うとき、2つの粒子が最大に絡み合うことができる範囲について検討する。 これを解決するために、多体物理学、計算複雑性、量子暗号の概念に基づく最適化問題を定式化し、解決する。 半定値プログラム(SDP)として形式化し,表現論のツールを用いて解析的に解決する。 特に、最大エンタングル状態と反対称ヴェルナー状態への射影の正確な最大値を決定し、量子拡張性の分野における長年の未解決問題を解消する。 我々の結果は、SDP双対性、対称群、ユニタリ群、直交群の表現論、およびブラウアー代数を活用することによって達成される。

We investigate the extent to which two particles can be maximally entangled when they are also similarly entangled with other particles on a complete graph, focusing on Werner, isotropic, and Brauer states. To address this, we formulate and solve optimization problems that draw on concepts from many-body physics, computational complexity, and quantum cryptography. We approach the problem by formalizing it as a semi-definite program (SDP), which we solve analytically using tools from representation theory. Notably, we determine the exact maximum values for the projection onto the maximally entangled state and the antisymmetric Werner state, thereby resolving long-standing open problems in the field of quantum extendibility. Our results are achieved by leveraging SDP duality, the representation theory of symmetric, unitary and orthogonal groups, and the Brauer algebra.
翻訳日:2024-08-26 20:18:44 公開日:2024-08-23
# 3次元土壌構造におけるバイオダイナミックな反応拡散モデルのための大域的トラクタ

Global Attractor for a Reaction-Diffusion Model Arising in Biological Dynamic in 3D Soil Structure ( http://arxiv.org/abs/2310.02060v2 )

ライセンス: Link先を確認
Mohamed Elghandouri, Khalil Ezzinbi, Mouad Klai, Olivier Monga, (参考訳) 部分微分方程式 (Partial Differential Equations, PDE) は、特に生物学領域において、複雑な自然過程をモデル化し、解釈するためのツールとして重要な役割を果たす。 本研究では, 3次元土壌構造の複雑なマトリックス内における微生物活性の領域を探索し, 溶液の存在と特異性, 対応するPDEモデルの漸近挙動の両面から貴重な知見を提供する。 本研究は,長期システム行動に重要な意味を持つ基本的特徴である,グローバルなアトラクションの発見につながる。 本研究の精度を高めるために,このグローバルなアトラクションの属性を視覚的に説明するために,数値シミュレーションを用いた。

Partial Differential Equations (PDEs) play a crucial role as tools for modeling and comprehending intricate natural processes, notably within the domain of biology. This research explores the domain of microbial activity within the complex matrix of 3D soil structures, providing valuable understanding into both the existence and uniqueness of solutions and the asymptotic behavior of the corresponding PDE model. Our investigation results in the discovery of a global attractor, a fundamental feature with significant implications for long-term system behavior. To enhance the clarity of our findings, numerical simulations are employed to visually illustrate the attributes of this global attractor.
翻訳日:2024-08-26 20:18:44 公開日:2024-08-23
# OpsEval: 大規模言語モデルのための総合的なIT運用ベンチマークスイート

OpsEval: A Comprehensive IT Operations Benchmark Suite for Large Language Models ( http://arxiv.org/abs/2310.07637v4 )

ライセンス: Link先を確認
Yuhe Liu, Changhua Pei, Longlong Xu, Bohan Chen, Mingze Sun, Zhirui Zhang, Yongqian Sun, Shenglin Zhang, Kun Wang, Haiming Zhang, Jianhui Li, Gaogang Xie, Xidao Wen, Xiaohui Nie, Minghua Ma, Dan Pei, (参考訳) 情報技術(IT)運用(Ops)、特にIT運用のための人工知能(AIOps)は、既存の情報システムの秩序的で安定した運用を維持するための保証である。 Gartnerの予測によると、自動化ITオペレーションにおけるAIテクノロジの利用は新しいトレンドになっている。 NLP関連のタスクで顕著な能力を発揮した大規模言語モデル(LLM)は、障害の根本原因分析、オペレーションの生成とメンテナンススクリプトの生成、アラート情報の要約など、AIOpsの分野で大きな可能性を秘めている。 しかし、Opsタスクにおける現在のLLMのパフォーマンスはまだ決定されていない。 本稿では,LLM向けに設計された総合的なタスク指向OpsベンチマークであるOpsEvalを提案する。 OpsEvalは、さまざまな能力レベルの重要なシナリオにおいて、LLMの習熟度を初めて評価する。 このベンチマークには、英語と中国語で7184の質問と1736の質問回答(QA)形式が含まれている。 現在主流となっている大規模言語モデルの総合的な性能評価を行うことで、様々なLLM技術がOpsのパフォーマンスにどのように影響を与えるかを示し、モデル定量化、QA評価、幻覚問題など、様々なトピックに関連する知見について議論した。 評価の信頼性を確保するため、何十人ものドメインエキスパートを招待して、質問を手動でレビューします。 同時に、テストQAの20%をオープンソースとして公開し、現在の研究者がOpsLLMモデルの事前評価を行うのを支援しています。 残りの80%は公開されていないが、テストセットのリークの問題を除去するために使用される。 さらに、我々は、リアルタイムに更新され、引き続き更新されるオンラインのリーダーボードを構築しました。 データセットもリーダボードも公開されています。

Information Technology (IT) Operations (Ops), particularly Artificial Intelligence for IT Operations (AIOps), is the guarantee for maintaining the orderly and stable operation of existing information systems. According to Gartner's prediction, the use of AI technology for automated IT operations has become a new trend. Large language models (LLMs) that have exhibited remarkable capabilities in NLP-related tasks, are showing great potential in the field of AIOps, such as in aspects of root cause analysis of failures, generation of operations and maintenance scripts, and summarizing of alert information. Nevertheless, the performance of current LLMs in Ops tasks is yet to be determined. In this paper, we present OpsEval, a comprehensive task-oriented Ops benchmark designed for LLMs. For the first time, OpsEval assesses LLMs' proficiency in various crucial scenarios at different ability levels. The benchmark includes 7184 multi-choice questions and 1736 question-answering (QA) formats in English and Chinese. By conducting a comprehensive performance evaluation of the current leading large language models, we show how various LLM techniques can affect the performance of Ops, and discussed findings related to various topics, including model quantification, QA evaluation, and hallucination issues. To ensure the credibility of our evaluation, we invite dozens of domain experts to manually review our questions. At the same time, we have open-sourced 20% of the test QA to assist current researchers in preliminary evaluations of their OpsLLM models. The remaining 80% of the data, which is not disclosed, is used to eliminate the issue of the test set leakage. Additionally, we have constructed an online leaderboard that is updated in real-time and will continue to be updated, ensuring that any newly emerging LLMs will be evaluated promptly. Both our dataset and leaderboard have been made public.
翻訳日:2024-08-26 20:18:44 公開日:2024-08-23
# Search-Adaptor: 情報検索のためのカスタマイズの埋め込み

Search-Adaptor: Embedding Customization for Information Retrieval ( http://arxiv.org/abs/2310.08750v3 )

ライセンス: Link先を確認
Jinsung Yoon, Sercan O Arik, Yanfei Chen, Tomas Pfister, (参考訳) 事前学習されたLarge Language Models (LLM) によって抽出された埋め込みは、情報検索と検索を改善する重要な可能性を持っている。 従来使用されていたゼロショット設定以外にも、関連するクエリコーパスペアデータからの情報を活用することで、LLM機能をさらに強化することができる。 本稿では,情報検索のためのLLMを効率的かつロバストな方法でカスタマイズする新しい手法であるSearch-Adaptorを提案する。 Search-Adaptorは、事前訓練されたLLMによって生成された埋め込みを修正し、予測API経由でのみ利用可能なものを含む任意のLLMと統合することができる。 複数の英語、多言語、マルチモーダル検索データセットでは、検索-アダプタ -- 例えば、nDCG@10におけるGoogle Embedding APIの5%以上の改善が、平均14 BEIRデータセットで、一貫して、重要なパフォーマンス上のメリットを示している。

Embeddings extracted by pre-trained Large Language Models (LLMs) have significant potential to improve information retrieval and search. Beyond the zero-shot setup in which they are being conventionally used, being able to take advantage of the information from the relevant query-corpus paired data can further boost the LLM capabilities. In this paper, we propose a novel method, Search-Adaptor, for customizing LLMs for information retrieval in an efficient and robust way. Search-Adaptor modifies the embeddings generated by pre-trained LLMs, and can be integrated with any LLM, including those only available via prediction APIs. On multiple English, multilingual, and multimodal retrieval datasets, we show consistent and significant performance benefits for Search-Adaptor -- e.g., more than 5% improvements for Google Embedding APIs in nDCG@10 averaged over 14 BEIR datasets.
翻訳日:2024-08-26 20:18:44 公開日:2024-08-23
# FLrce: アーリーストッピング戦略によるリソース効率の良いフェデレーションラーニング

FLrce: Resource-Efficient Federated Learning with Early-Stopping Strategy ( http://arxiv.org/abs/2310.09789v4 )

ライセンス: Link先を確認
Ziru Niu, Hai Dong, A. Kai Qin, Tao Gu, (参考訳) フェデレートラーニング(FL)は、IoT(Internet of Things)において、データのプライバシを維持しながら、インテリジェントなサービスを顧客に提供するための強力なインターフェースとして、非常に人気がある。 サーバのオーケストレーションの下では、エッジデバイス(FLのクライアントとも呼ばれる)は、ローカルデータを共有せずに、グローバルなディープラーニングモデルを協調的にトレーニングする。 それでも、クライアント間の不平等なトレーニングコントリビューションは、FLを脆弱なものにしている。 さらに、ネットワークのリソース不足の問題もボトルネックとなっている。 エッジデバイス上でディープラーニングモデルをトレーニングすることによって発生する計算オーバーヘッドと、ネットワーク全体にわたってディープラーニングモデルを送信するための通信オーバーヘッドにより、FLプロセスでは膨大なリソースが消費される。 これは、エネルギーや帯域幅のような通信資源のような計算資源を含んでいる。 本稿では、これらの課題を包括的に解決するために、関係ベースのクライアント選択と早期停止戦略を備えた効率的なFLフレームワークであるFLrceを提案する。 FLrceは、より大きな効果を持つクライアントを選択することでFLプロセスを加速し、グローバルモデルがより少ないラウンドで高精度に収束できるようにする。 FLrceはまた、通信と計算資源を節約するために、FLを事前に停止させる早期停止機構も活用している。 その結果,既存のFLフレームワークと比較してFLrceは計算効率を少なくとも30%,通信効率を43%向上させることがわかった。

Federated Learning (FL) achieves great popularity in the Internet of Things (IoT) as a powerful interface to offer intelligent services to customers while maintaining data privacy. Under the orchestration of a server, edge devices (also called clients in FL) collaboratively train a global deep-learning model without sharing any local data. Nevertheless, the unequal training contributions among clients have made FL vulnerable, as clients with heavily biased datasets can easily compromise FL by sending malicious or heavily biased parameter updates. Furthermore, the resource shortage issue of the network also becomes a bottleneck. Due to overwhelming computation overheads generated by training deep-learning models on edge devices, and significant communication overheads for transmitting deep-learning models across the network, enormous amounts of resources are consumed in the FL process. This encompasses computation resources like energy and communication resources like bandwidth. To comprehensively address these challenges, in this paper, we present FLrce, an efficient FL framework with a relationship-based client selection and early-stopping strategy. FLrce accelerates the FL process by selecting clients with more significant effects, enabling the global model to converge to a high accuracy in fewer rounds. FLrce also leverages an early stopping mechanism that terminates FL in advance to save communication and computation resources. Experiment results show that, compared with existing efficient FL frameworks, FLrce improves the computation and communication efficiency by at least 30% and 43% respectively.
翻訳日:2024-08-26 20:18:44 公開日:2024-08-23
# 不確実性に基づくグラディエントマッチングによるモデルマージ

Model Merging by Uncertainty-Based Gradient Matching ( http://arxiv.org/abs/2310.12808v2 )

ライセンス: Link先を確認
Nico Daheim, Thomas Möllenhoff, Edoardo Maria Ponti, Iryna Gurevych, Mohammad Emtiyaz Khan, (参考訳) 異なるデータセットでトレーニングされたモデルは、パラメータの重み付けによってマージすることができる。 ここでは、重み付きアベリングの不正確さを勾配のミスマッチに結びつけるとともに、ミスマッチを減らすことで性能を改善するための新しい不確実性ベースのスキームを提案する。 この接続はまた、平均化、タスク演算、フィッシャー重み付けといった他のスキームにおける暗黙の仮定を明らかにしている。 我々の新しい手法は、ハイパーパラメータの性能とロバスト性の両方の観点から、大きな言語モデルと視覚変換器に一貫した改善を提供する。 コードはこちら。

Models trained on different datasets can be merged by a weighted-averaging of their parameters, but why does it work and when can it fail? Here, we connect the inaccuracy of weighted-averaging to mismatches in the gradients and propose a new uncertainty-based scheme to improve the performance by reducing the mismatch. The connection also reveals implicit assumptions in other schemes such as averaging, task arithmetic, and Fisher-weighted averaging. Our new method gives consistent improvements for large language models and vision transformers, both in terms of performance and robustness to hyperparameters. Code available here.
翻訳日:2024-08-26 20:18:44 公開日:2024-08-23
# ESVAE: ポアソンスパイクサンプリングを分離可能な高効率スパイキング変分オートエンコーダ

ESVAE: An Efficient Spiking Variational Autoencoder with Reparameterizable Poisson Spiking Sampling ( http://arxiv.org/abs/2310.14839v2 )

ライセンス: Link先を確認
Qiugang Zhan, Ran Tao, Xiurui Xie, Guisong Liu, Malu Zhang, Huajin Tang, Yang Yang, (参考訳) 近年、スパイキングニューラルネットワーク(SNN)の画像生成モデルの研究が多くの研究者の注目を集めている。 可変オートエンコーダ(VAE)は、最も人気のある画像生成モデルの一つである。 SNNの制約付きバイナリ表現のため、既存のSNN VAEメソッドは精巧な自己回帰型ネットワークによって潜在空間を暗黙的に構築し、サンプリング変数としてネットワーク出力を使用する。 しかし、この特定されていない潜在空間の暗黙表現は、高品質な画像の生成の難しさを高め、追加のネットワークパラメータを導入する。 本稿では,解釈可能な潜在空間分布を構築し,再パラメータ化可能なスパイキングサンプリング法を設計する,効率的なスパイキング変動自動エンコーダ(ESVAE)を提案する。 具体的には、スパイキングニューロンの発火速度を用いて、ポアソン分布として潜伏空間の前と後を構成する。 次いで,追加ネットワークを不要とした再パラメータ化可能なポアソンスパイクサンプリング手法を提案する。 総合的な実験を行い, 提案したESVAE法は, 再構成・生成画像の品質において, 従来のSNN VAE法より優れていたことを示す。 さらに、ESVAEのエンコーダは元の画像情報をより効率的に保持でき、デコーダはより堅牢であることを示した。 ソースコードはhttps://github.com/QgZhan/ESVAEで入手できる。

In recent years, studies on image generation models of spiking neural networks (SNNs) have gained the attention of many researchers. Variational autoencoders (VAEs), as one of the most popular image generation models, have attracted a lot of work exploring their SNN implementation. Due to the constrained binary representation in SNNs, existing SNN VAE methods implicitly construct the latent space by an elaborated autoregressive network and use the network outputs as the sampling variables. However, this unspecified implicit representation of the latent space will increase the difficulty of generating high-quality images and introduces additional network parameters. In this paper, we propose an efficient spiking variational autoencoder (ESVAE) that constructs an interpretable latent space distribution and design a reparameterizable spiking sampling method. Specifically, we construct the prior and posterior of the latent space as a Poisson distribution using the firing rate of the spiking neurons. Subsequently, we propose a reparameterizable Poisson spiking sampling method, which is free from the additional network. Comprehensive experiments have been conducted, and the experimental results show that the proposed ESVAE outperforms previous SNN VAE methods in reconstructed & generated images quality. In addition, experiments demonstrate that ESVAE's encoder is able to retain the original image information more efficiently, and the decoder is more robust. The source code is available at https://github.com/QgZhan/ESVAE.
翻訳日:2024-08-26 20:18:44 公開日:2024-08-23
# 言語モデルを用いた知識コモンズとコンテキスト統合(GKC-CI)プライバシポリシアノテーションの自動化

Automating Governing Knowledge Commons and Contextual Integrity (GKC-CI) Privacy Policy Annotations with Large Language Models ( http://arxiv.org/abs/2311.02192v2 )

ライセンス: Link先を確認
Jake Chanenson, Madison Pickering, Noah Apthorpe, (参考訳) プライバシーポリシーテキストにおける文脈整合性(CI)と知識共通性(GKC)パラメータの同定は、規範的プライバシー分析を促進する。 しかし、GKC-CIアノテーションは、これまで手動やクラウドソースの作業を必要としていた。 本稿では,大規模言語モデルを用いて,プライバシーポリシーの高精度なGKC-CIパラメータアノテーションを自動実行できることを実証する。 我々は16の根拠となる真実のプライバシポリシから,21,588 GKC-CIアノテーション上で,50のオープンソースおよびプロプライエタリなモデルを精査する。 私たちの最高のパフォーマンスモデルは90.65%の精度で、同じタスクのエキスパートの精度に匹敵する。 各種オンラインサービスから456のプライバシポリシにベストパフォーマンスモデルを適用し,プライバシポリシ探索と分析のためのGKC-CIアノテーションのスケーリングの有効性を実証した。 私たちは、モデルトレーニングコード、トレーニングとテストデータ、アノテーションビジュアライザ、そして将来のGKC-CI研究のためのすべての注釈付きポリシーを公開しています。

Identifying contextual integrity (CI) and governing knowledge commons (GKC) parameters in privacy policy texts can facilitate normative privacy analysis. However, GKC-CI annotation has heretofore required manual or crowdsourced effort. This paper demonstrates that high-accuracy GKC-CI parameter annotation of privacy policies can be performed automatically using large language models. We fine-tune 50 open-source and proprietary models on 21,588 GKC-CI annotations from 16 ground truth privacy policies. Our best performing model has an accuracy of 90.65%, which is comparable to the accuracy of experts on the same task. We apply our best performing model to 456 privacy policies from a variety of online services, demonstrating the effectiveness of scaling GKC-CI annotation for privacy policy exploration and analysis. We publicly release our model training code, training and testing data, an annotation visualizer, and all annotated policies for future GKC-CI research.
翻訳日:2024-08-26 20:18:44 公開日:2024-08-23
# スパイキングNeRF:不連続表現による実世界幾何の表現

Spiking NeRF: Representing the Real-World Geometry by a Discontinuous Representation ( http://arxiv.org/abs/2311.09077v3 )

ライセンス: Link先を確認
Zhanfeng Liao, Qian Zheng, Yan Liu, Gang Pan, (参考訳) 既存のNeRFベースの手法が成功した重要な理由は、複数のパーセプトロン層(MLP)を介して幾何学表現のための神経密度場を構築することである。 MLPは連続関数であるが、実際の幾何学や密度場は空気と表面の界面においてしばしば不連続である。 そのような反対は、不誠実な幾何学的表現の問題をもたらす。 そこで本研究では, スパイキングニューロンとハイブリッドニューラルネットワーク(ANN)-スパイキングニューラルネットワーク(SNN)を用いて, 忠実な幾何表現のための不連続密度場を構築するためのスパイキングNeRFを提案する。 具体的には、連続密度場が不正確をもたらす理由を最初に示す。 次に、スパイキングニューロンを用いて不連続密度場を構築することを提案する。 既存のスパイキングニューロンモデルの問題に対する包括的解析を行い、スパイキングニューロンのパラメータと幾何学の理論的精度との数値的関係を提供する。 これに基づいて、不連続密度場を構築するための有界スパイクニューロンを提案する。 提案手法はSOTA性能を実現する。 ソースコードと追加資料はhttps://github.com/liaozhanfeng/Spiking-NeRF.comで公開されている。

A crucial reason for the success of existing NeRF-based methods is to build a neural density field for the geometry representation via multiple perceptron layers (MLPs). MLPs are continuous functions, however, real geometry or density field is frequently discontinuous at the interface between the air and the surface. Such a contrary brings the problem of unfaithful geometry representation. To this end, this paper proposes spiking NeRF, which leverages spiking neurons and a hybrid Artificial Neural Network (ANN)-Spiking Neural Network (SNN) framework to build a discontinuous density field for faithful geometry representation. Specifically, we first demonstrate the reason why continuous density fields will bring inaccuracy. Then, we propose to use the spiking neurons to build a discontinuous density field. We conduct a comprehensive analysis for the problem of existing spiking neuron models and then provide the numerical relationship between the parameter of the spiking neuron and the theoretical accuracy of geometry. Based on this, we propose a bounded spiking neuron to build the discontinuous density field. Our method achieves SOTA performance. The source code and the supplementary material are available at https://github.com/liaozhanfeng/Spiking-NeRF.
翻訳日:2024-08-26 20:08:57 公開日:2024-08-23
# 2つの量子メモリによる絡み合いバッファリング

Entanglement buffering with two quantum memories ( http://arxiv.org/abs/2311.10052v3 )

ライセンス: Link先を確認
Bethany Davies, Álvaro G. Iñesta, Stephanie Wehner, (参考訳) 量子ネットワークは、遠方のノードに分散する絡み合ったリンクとして知られる、高品質な絡み合った量子ビットのペアの可用性に極めて依存している。 これらのリンクの品質を維持することは、時間依存ノイズの存在、あるいはデコヒーレンス(decoherence)として知られるため、難しい作業である。 絡み合い浄化プロトコルは、複数の低品質な絡み合い状態からより少数の高品質な状態に変換することで解を提供する。 本研究では, 絡み込み, 脱コヒーレンス, 絡み込み浄化を組み合わせ, 絡み合いバッファリング装置の性能を解析する枠組みを提案する。 本稿では,絡み合ったリンクが存在する定常状態の確率である可用性と,消費されるリンクの定常状態の品質を定量化する平均消費忠実度という2つの重要な指標を提案する。 次に、各ノードが2つの量子メモリを持つ2ノードシステムについて検討する。 この設定を連続的な確率的プロセスとしてモデル化し、パフォーマンス指標の分析式を導出する。 以上の結果から, 平均消費忠実度と可利用性との間にはトレードオフがあることが判明した。 また、これらの性能指標を、よく知られたバイローカルなクリフォード浄化プロトコルを用いたバッファリングシステムに縛り付ける。 本分析は, ノイズの存在下では, バッファ状絡み合いが, パーミネーション故障により, バッファ状絡み合いが破棄された場合でも, バッファ状絡み合いが平均消費忠実度を増加させることを示した。

Quantum networks crucially rely on the availability of high-quality entangled pairs of qubits, known as entangled links, distributed across distant nodes. Maintaining the quality of these links is a challenging task due to the presence of time-dependent noise, also known as decoherence. Entanglement purification protocols offer a solution by converting multiple low-quality entangled states into a smaller number of higher-quality ones. In this work, we introduce a framework to analyse the performance of entanglement buffering setups that combine entanglement consumption, decoherence, and entanglement purification. We propose two key metrics: the availability, which is the steady-state probability that an entangled link is present, and the average consumed fidelity, which quantifies the steady-state quality of consumed links. We then investigate a two-node system, where each node possesses two quantum memories: one for long-term entanglement storage, and another for entanglement generation. We model this setup as a continuous-time stochastic process and derive analytical expressions for the performance metrics. Our findings unveil a trade-off between the availability and the average consumed fidelity. We also bound these performance metrics for a buffering system that employs the well-known bilocal Clifford purification protocols. Importantly, our analysis demonstrates that, in the presence of noise, consistently purifying the buffered entanglement increases the average consumed fidelity, even when some buffered entanglement is discarded due to purification failures.
翻訳日:2024-08-26 20:08:57 公開日:2024-08-23
# 非対称Bethe Ansatz

Asymmetric Bethe Ansatz ( http://arxiv.org/abs/2311.15155v4 )

ライセンス: Link先を確認
Steven G. Jackson, Hélène Perrin, Gregory E. Astrakharchik, Maxim Olshanii, (参考訳) 最近提案された正確な量子解は、2つの$\delta$-function-interacting particles with a mass-ratio $3\! : ! ハードウォールボックス (Y. Liu, F. Qi, Y. Zhang, S. Chen, iScience 22 181 (2019)) の 1 ドルは、ベテ・アンザッツ積分性に対する従来の必要条件に反する。 本稿では、この条件を緩和する方法を見出した: 既知の自己不変鏡重ね合わせの半透明鏡の一部が、完全に反射する鏡に置き換えられ、自己不変性を損なう。 提案された手法の名は \emph{Asymmetric Bethe Ansatz} (非対称BA) である。 実例として、ボソニック二量体を$\delta$-wellで構成した、名目上は非可積分系の有界状態について詳細に研究する。 最後に、Lou-Qi-Zhang-Chen問題の正確な解は非対称BAの特別な例であることを示す。

The recently proposed exact quantum solution for two $\delta$-function-interacting particles with a mass-ratio $3\!:\!1$ in a hard-wall box [Y. Liu, F. Qi, Y. Zhang and S. Chen, iScience 22, 181 (2019)] violates the conventional necessary condition for a Bethe Ansatz integrability, the condition being that the system must be reducible to a superposition of semi-transparent mirrors that is invariant under all the reflections it generates. In this article, we found a way to relax this condition: some of the semi-transparent mirrors of a known self-invariant mirror superposition can be replaced by the perfectly reflecting ones, thus breaking the self-invariance. The proposed name for the method is \emph{Asymmetric Bethe Ansatz} (Asymmetric BA). As a worked example, we study in detail the bound states of the nominally non-integrable system comprised of a bosonic dimer in a $\delta$-well. Finally, we show that the exact solution of the Liu-Qi-Zhang-Chen problem is a particular instance of the the Asymmetric BA.
翻訳日:2024-08-26 20:08:57 公開日:2024-08-23
# ControlDreamer: テキストから3Dへの曲げ幾何学とスタイル

ControlDreamer: Blending Geometry and Style in Text-to-3D ( http://arxiv.org/abs/2312.01129v3 )

ライセンス: Link先を確認
Yeongtak Oh, Jooyoung Choi, Yongsung Kim, Minjun Park, Chaehun Shin, Sungroh Yoon, (参考訳) 近年のテキスト・ツー・3D生成の進歩は、3Dコンテンツ作成の自動化と民主化に大きく貢献している。 これらの発展を基盤として,テキストから3D生成におけるジオメトリとスタイルのブレンドにおける現在の手法の限界に対処することを目的とする。 テキストコーパスから生成したデータセットに基づいて学習した,深度を考慮した新しい多視点拡散モデルであるMulti-view ControlNetを導入する。 マルチビューコントロールネットは、2段階のパイプラインであるControlDreamerに統合され、テキストガイドによるスタイリングされた3Dモデルの生成を可能にします。 さらに,オブジェクト,動物,キャラクタなど幅広い対象を包含した3Dスタイル編集のための総合的なベンチマークを提示し,多種多様な3D生成の研究を促進させる。 我々の比較分析によると、このパイプラインは人間の評価やCLIPスコアの指標から証明されたように、既存のテキスト・ツー・3D手法よりも優れている。 プロジェクトページ: https://controldreamer.github.io

Recent advancements in text-to-3D generation have significantly contributed to the automation and democratization of 3D content creation. Building upon these developments, we aim to address the limitations of current methods in blending geometries and styles in text-to-3D generation. We introduce multi-view ControlNet, a novel depth-aware multi-view diffusion model trained on generated datasets from a carefully curated text corpus. Our multi-view ControlNet is then integrated into our two-stage pipeline, ControlDreamer, enabling text-guided generation of stylized 3D models. Additionally, we present a comprehensive benchmark for 3D style editing, encompassing a broad range of subjects, including objects, animals, and characters, to further facilitate research on diverse 3D generation. Our comparative analysis reveals that this new pipeline outperforms existing text-to-3D methods as evidenced by human evaluations and CLIP score metrics. Project page: https://controldreamer.github.io
翻訳日:2024-08-26 20:08:57 公開日:2024-08-23
# AIとジョブ: インフレクションポイントは生まれたか?オンライン労働プラットフォームからの証拠

AI and Jobs: Has the Inflection Point Arrived? Evidence from an Online Labor Platform ( http://arxiv.org/abs/2312.04180v2 )

ライセンス: Link先を確認
Dandan Qiao, Huaxia Rui, Qian Xiong, (参考訳) 大規模言語モデル (LLMs) の出現は「技術移転」の重要な問題に関する議論を再燃させた。 マクロの観点からは,情報技術が人的労働に与える影響を概ね調査してきたが,この論文はマイクロ視点からLLMがフリーランサーに与える影響を調べることによって,文献を補完するものである。 具体的には、ChatGPTのリリースを活用して、さまざまなオンライン労働市場(OLM)のフリーランサーにAIがどのように影響するかを調査します。 差分差分法を用いて、ChatGPTのリリース後、2つの異なるシナリオを発見した。 1 LLMの変位効果は、OLMの翻訳・ローカライゼーションの例に示すように、作業量及び収益の減少を特徴とする。 2) LLM の生産性効果は,Web 開発 OLM の例に示すように,作業量や収益の増大を特徴としている。 そこで我々は,AIの進行のタイムラインをハネムーンフェーズと置換フェーズに分割した,職業ごとの摂動点の存在を強調するために,Cournot型競争モデルを開発した。 AIのパフォーマンスが摂動点を越える前に、AIが改善するたびに人間の労働力が恩恵を受け、ハネムーンフェーズが生まれる。 しかし、AIのパフォーマンスが摂動点を超えた後、追加のAI拡張は人間の労働を損なう。 さらに、ChatGPT 3.5から4.0までの進行を解析した結果、3つの効果シナリオ(生産性から生産性へ、変位へ、生産性から変位へ)が屈折点予想と一致していることが判明した。 異質な分析によると、米国のウェブ開発者は他の地域の翻訳者に比べてChatGPTのリリースの恩恵を受ける傾向にあり、やや驚くべきことに、経験豊富な翻訳者がChatGPTのリリース後に経験の浅い翻訳者より市場を去る傾向にある。

The emergence of Large Language Models (LLMs) has renewed the debate on the important issue of "technology displacement". While prior research has investigated the effect of information technology in general on human labor from a macro perspective, this paper complements the literature by examining the impact of LLMs on freelancers from a micro perspective. Specifically, we leverage the release of ChatGPT to investigate how AI influences freelancers across different online labor markets (OLMs). Employing the Difference-in-Differences method, we discovered two distinct scenarios following ChatGPT's release: 1) the displacement effect of LLMs, featuring reduced work volume and earnings, as is exemplified by the translation & localization OLM; 2) the productivity effect of LLMs, featuring increased work volume and earnings, as is exemplified by the web development OLM. To shed light on the underlying mechanisms, we developed a Cournot-type competition model to highlight the existence of an inflection point for each occupation which separates the timeline of AI progress into a honeymoon phase and a substitution phase. Before AI performance crosses the inflection point, human labor benefits each time AI improves, resulting in the honeymoon phase. However, after AI performance crosses the inflection point, additional AI enhancement hurts human labor. Further analyzing the progression from ChatGPT 3.5 to 4.0, we found three effect scenarios (i.e., productivity to productivity, displacement to displacement, and productivity to displacement), consistent with the inflection point conjecture. Heterogeneous analyses reveal that U.S. web developers tend to benefit more from the release of ChatGPT compared to their counterparts in other regions, and somewhat surprisingly, experienced translators seem more likely to exit the market than less experienced translators after the release of ChatGPT.
翻訳日:2024-08-26 20:08:57 公開日:2024-08-23
# 合理的感覚:自己表現理論によるLLM増強共感反応生成

Rational Sensibility: LLM Enhanced Empathetic Response Generation Guided by Self-presentation Theory ( http://arxiv.org/abs/2312.08702v4 )

ライセンス: Link先を確認
Linzhuang Sun, Yao Dong, Nan Xu, Jingxuan Wei, Bihui Yu, Yin Luo, (参考訳) LLM(Large Language Models)の開発は、人間中心の人工知能(AGI)に希望の光を与えている。 共感は人間にとって重要な感情的属性として機能し、人間中心のAGIにおいて不定の役割を果たす。 多くの研究は、外部知識を取り入れてモデルの認知的共感を改善することを目的としているが、共感の重要な要素である会話自体の感受性と合理性に注意が向けられている。 しかし,会話における合理性情報は制限されており,従来の知識拡張手法は意味的対立やシングルロール視点の対象となる。 本稿では,社会学における自己表現理論にインスパイアされた革新的なエンコーダモジュールを設計する。 また,LLMを有理脳として,会話中に保存された深い論理的情報を解読し,感性と合理性のバランスを判断し,高品質な共感的応答を生成する。 実験結果から,本モデルは自動評価と人的評価の両方において,他の手法よりも優れていることが示された。

The development of Large Language Models (LLMs) provides human-centered Artificial General Intelligence (AGI) with a glimmer of hope. Empathy serves as a key emotional attribute of humanity, playing an irreplaceable role in human-centered AGI. Despite numerous researches aim to improve the cognitive empathy of models by incorporating external knowledge, there has been limited attention on the sensibility and rationality of the conversation itself, which are vital components of the empathy. However, the rationality information within the conversation is restricted, and previous methods of extending knowledge are subject to semantic conflict and single-role view. In this paper, we design an innovative encoder module inspired by self-presentation theory in sociology, which specifically processes sensibility and rationality sentences in dialogues. And we employ a LLM as a rational brain to decipher profound logical information preserved within the conversation, which assists our model in assessing the balance between sensibility and rationality to produce high-quality empathetic response. Experimental results demonstrate that our model outperforms other methods in both automatic and human evaluations.
翻訳日:2024-08-26 20:08:57 公開日:2024-08-23
# 比較リファインメントフレームワークを用いた科学文書からの物体認識

Object Recognition from Scientific Document based on Compartment Refinement Framework ( http://arxiv.org/abs/2312.09038v4 )

ライセンス: Link先を確認
Jinghong Li, Wen Gu, Koichi Ota, Shinobu Hasegawa, (参考訳) 過去10年間のインターネットの急速な発展に伴い、大規模な資源から貴重な情報を効率的に抽出することがますます重要になってきており、特に調査や理解の文脈において、包括的なデジタルエコシステムの確立に不可欠である。 これらのタスクの基礎は、堅牢なデータ基盤を構築するのに不可欠である科学文書からのデータの正確な抽出と深層採掘に焦点を当てている。 しかし、複雑な科学資料から生データを解析したり、データを抽出したりすることは、現在進行中の課題である。 科学文書の現在のデータ抽出方法は、ルールベース(RB)または機械学習(ML)アプローチを用いるのが一般的である。 しかし、ルールベースの手法を使えば、複雑なタイプセットを持つ記事に対して高いコーディングコストを発生させることができる。 逆に、機械学習の手法にのみ依存するため、科学文書内の複雑なコンテンツタイプに対するアノテーション作業が必要であり、コストがかかる可能性がある。 さらに、科学的文書の階層的レイアウトを徹底的に定義し、調査する研究はほとんどない。 文書の内部構造と要素の包括的定義の欠如は、テキスト分類とオブジェクト認識タスクの精度に間接的に影響を及ぼす。 特定出版物における標準レイアウトとタイプセットの分析の観点から,CTBR(Compartment & Text Blocks Refinement)と呼ばれる新しい文書レイアウト分析フレームワークを提案する。 まず,学術文書を基本領域,コンパートメント,テキストブロックという階層的な区分に分類する。 次に,テキストブロックの意味の詳細な探索と分類を行う。 最後に,ルールベースのコンパートメントセグメンテーションに基づいて,テキストブロック分類の結果を用いて,科学的文書内にオブジェクト認識を実装した。

With the rapid development of the internet in the past decade, it has become increasingly important to extract valuable information from vast resources efficiently, which is crucial for establishing a comprehensive digital ecosystem, particularly in the context of research surveys and comprehension. The foundation of these tasks focuses on accurate extraction and deep mining of data from scientific documents, which are essential for building a robust data infrastructure. However, parsing raw data or extracting data from complex scientific documents have been ongoing challenges. Current data extraction methods for scientific documents typically use rule-based (RB) or machine learning (ML) approaches. However, using rule-based methods can incur high coding costs for articles with intricate typesetting. Conversely, relying solely on machine learning methods necessitates annotation work for complex content types within the scientific document, which can be costly. Additionally, few studies have thoroughly defined and explored the hierarchical layout within scientific documents. The lack of a comprehensive definition of the internal structure and elements of the documents indirectly impacts the accuracy of text classification and object recognition tasks. From the perspective of analyzing the standard layout and typesetting used in the specified publication, we propose a new document layout analysis framework called CTBR(Compartment & Text Blocks Refinement). Firstly, we define scientific documents into hierarchical divisions: base domain, compartment, and text blocks. Next, we conduct an in-depth exploration and classification of the meanings of text blocks. Finally, we utilize the results of text block classification to implement object recognition within scientific documents based on rule-based compartment segmentation.
翻訳日:2024-08-26 20:08:57 公開日:2024-08-23
# 単一光子対と光子対の強い結合

Strong coupling between a single photon and a photon pair ( http://arxiv.org/abs/2401.02738v2 )

ライセンス: Link先を確認
Shuai-Peng Wang, Alberto Mercurio, Alessandro Ridolfo, Yuqing Wang, Mo Chen, Tiefu Li, Franco Nori, Salvatore Savasta, J. Q. You, (参考訳) 単一光子間の強い非線形結合の実現は、量子光学と量子情報科学の長年の目標であり、全光決定論的量子論理や単一光子周波数変換のような幅広い応用を約束している。 本稿では, 単一光子対と光子対との強い結合を, 超強結合回路-QED系で実験的に観察する。 この強い非線形相互作用は、超伝導コプラナー導波路共振器の2モード間の有効カプラとして機能する変形束量子ビットを導入することで実現される。 超強光-物質相互作用は励起数保存を破り、外部フラックスバイアスはパリティ保存を破る。 量子ラビ様回避交差は、第1モードの2光子共鳴周波数を第2モードの1光子共鳴周波数にわたって調整する際に解決される。 この新たなフォトニック状態の中では、平均光子数が1以下の2番目のハーモニック発生を観測する。 この結果は、量子非線形光学の新しい体制への重要な一歩であり、各光子は、刺激場が存在しない状態で、決定的かつ一貫性を持って互いに相互作用することができる。

The realization of strong nonlinear coupling between single photons has been a long-standing goal in quantum optics and quantum information science, promising wide impact applications, such as all-optical deterministic quantum logic and single-photon frequency conversion. Here, we report an experimental observation of the strong coupling between a single photon and a photon pair in an ultrastrongly-coupled circuit-QED system. This strong nonlinear interaction is realized by introducing a detuned flux qubit working as an effective coupler between two modes of a superconducting coplanar waveguide resonator. The ultrastrong light--matter interaction breaks the excitation number conservation, and an external flux bias breaks the parity conservation. The combined effect of the two enables the strong one--two-photon coupling. Quantum Rabi-like avoided crossing is resolved when tuning the two-photon resonance frequency of the first mode across the single-photon resonance frequency of the second mode. Within this new photonic regime, we observe the second harmonic generation for a mean photon number below one. Our results represent a key step towards a new regime of quantum nonlinear optics, where individual photons can deterministically and coherently interact with each other in the absence of any stimulating fields.
翻訳日:2024-08-26 20:08:57 公開日:2024-08-23
# アベリア隠れ部分群問題に対するアルゴリズム量子スピードアップの実証

Demonstration of Algorithmic Quantum Speedup for an Abelian Hidden Subgroup Problem ( http://arxiv.org/abs/2401.07934v2 )

ライセンス: Link先を確認
P. Singkanipa, V. Kasatkin, Z. Zhou, G. Quiroz, D. A. Lidar, (参考訳) サイモンの問題は、未知の2$-to-$1$関数に符号化された隠された周期(ビットストリング)を見つけることである。 これは、理想的でノイズのない量子コンピュータで指数的な量子スピードアップが証明された最も初期の問題の1つである。 ここでは、2つの異なる127ドルの量子量子超伝導プロセッサを用いて、隠れた周期がハミング重量がw$に制限されたシモン問題の変種に対するアルゴリズム的な量子スピードアップを実証する。 最大580ドルの量子ビットを含む回路に対して、w$の十分小さな値に対して、ノイズレスアルゴリズムで予測されるスピードアップよりも低い品質の指数的なスピードアップを示す。 指数的スピードアップが存在するスピードアップ指数と$w$値の範囲は、動的デカップリングによって計算が保護されるときに著しく向上する。 測定誤差軽減によりさらなる向上が達成される。 これは、アベリアの隠れた部分群問題に対するボナ・フェイド量子上の優位性の証明を構成する。

Simon's problem is to find a hidden period (a bitstring) encoded into an unknown $2$-to-$1$ function. It is one of the earliest problems for which an exponential quantum speedup was proven for ideal, noiseless quantum computers, albeit in the oracle model. Here, using two different $127$-qubit IBM Quantum superconducting processors, we demonstrate an algorithmic quantum speedup for a variant of Simon's problem where the hidden period has a restricted Hamming weight $w$. For sufficiently small values of $w$ and for circuits involving up to $58$ qubits, we demonstrate an exponential speedup, albeit of a lower quality than the speedup predicted for the noiseless algorithm. The speedup exponent and the range of $w$ values for which an exponential speedup exists are significantly enhanced when the computation is protected by dynamical decoupling. Further enhancement is achieved with measurement error mitigation. This constitutes a demonstration of a bona fide quantum advantage for an Abelian hidden subgroup problem.
翻訳日:2024-08-26 20:08:57 公開日:2024-08-23
# プロキシによる言語モデルのチューニング

Tuning Language Models by Proxy ( http://arxiv.org/abs/2401.08565v4 )

ライセンス: Link先を確認
Alisa Liu, Xiaochuang Han, Yizhong Wang, Yulia Tsvetkov, Yejin Choi, Noah A. Smith, (参考訳) 大きな事前訓練された言語モデルの一般的な能力にもかかわらず、彼らは常に、望ましい振る舞いを達成するためにさらなる適応の恩恵を受ける。 しかし、モデルウェイトがプライベートである場合には、これらのモデルのチューニングはますますリソース集約化され、あるいは不可能になっている。 我々は、直接チューニングと同じ目的を達成するためにブラックボックスLM上で動作する軽量な復号時間アルゴリズムであるプロキシチューニングを導入するが、そのパラメータではなく出力語彙上の予測のみにアクセスする。 提案手法は、小型のLMをチューニングし、小型のチューンモデルの予測と未調整のLMとの差を適用して、大規模プレトレーニングの利点を保ちながら、チューニング方向の未調整モデルの元の予測をシフトさせる。 実験では、7Bサイズのプロキシを使用したプロキシチューニングをLlama2-70Bに適用すると、Llama2-70Bと実際にチューニングされたチャットバージョンとのギャップの88%を、知識、推論、安全性ベンチマークで評価することができる。 次に、コードへのドメイン適応の適用によるプロキシチューニングの一般化と、質問応答や数学の問題に対するタスク固有の微調整を実証する。 最後に、時間適応のための真のブラックボックスLM(GPT-3.5)のプロキシチューニング方法を示し、近年の出来事に関する知識を高めた。 我々の研究は、デコード時ガイダンスにより、小さく調整されたLMを用いて、大規模で潜在的にプロプライエタリなLMを効率的にカスタマイズする可能性を実証している。

Despite the general capabilities of large pretrained language models, they consistently benefit from further adaptation to better achieve desired behaviors. However, tuning these models has become increasingly resource-intensive, or impossible when model weights are private. We introduce proxy-tuning, a lightweight decoding-time algorithm that operates on top of black-box LMs to achieve the same end as direct tuning, but by accessing only its predictions over the output vocabulary, not its parameters. Our method tunes a smaller LM, then applies the difference between the predictions of the small tuned and untuned LMs to shift the original predictions of the larger untuned model in the direction of tuning, while retaining the benefits of larger-scale pretraining. In experiments, when we apply proxy-tuning to Llama2-70B using proxies of only 7B size, we can close 88% of the gap between Llama2-70B and its truly-tuned chat version, when evaluated across knowledge, reasoning, and safety benchmarks. We then demonstrate the generality of proxy-tuning by applying it to domain adaptation on code, and task-specific finetuning on question-answering and math problems. Finally, we show how to proxy-tune a truly black-box LM, GPT-3.5, for temporal adaptation, increasing its knowledge about recent events. Our work demonstrates the promise of using small tuned LMs to efficiently customize large, potentially proprietary LMs through decoding-time guidance.
翻訳日:2024-08-26 20:08:57 公開日:2024-08-23
# 最大エントロピー原理からのエントロピー生成:統一的アプローチ

Entropy Production from Maximum Entropy Principle: a Unifying Approach ( http://arxiv.org/abs/2401.09936v3 )

ライセンス: Link先を確認
Adalberto D. Varizi, Pedro S. Correia, (参考訳) エントロピー生成は、不可逆現象と熱力学の第2法則を特徴づける重要な量である。 しかし、ユビキタスな定義はコンセンサスを損なう。 エントロピー生産が情報への不完全なアクセスから生じることを考えれば、このレターでは、ジェインズの最大エントロピー原理を用いて、顕著で矛盾する定義をまとめる枠組みを確立する。 より一般的に、エントロピー生成の定義は、トモグラフィ的に不完全な量子測定やシステム上の量子チャネルの作用に対処する。

Entropy production is the crucial quantity characterizing irreversible phenomena and the second law of thermodynamics. Yet, a ubiquitous definition eludes consensus. Given that entropy production arises from incomplete access to information, in this Letter we use Jaynes' maximum entropy principle to establish a framework that brings together prominent and apparently conflicting definitions. More generally our definition of entropy production addresses any tomographically incomplete quantum measurement and/or the action of a quantum channel on a system.
翻訳日:2024-08-26 20:08:57 公開日:2024-08-23
# 浄化教育(AToP:Adversarial Training on Purification) : ロバストネスと一般化の両立

Adversarial Training on Purification (AToP): Advancing Both Robustness and Generalization ( http://arxiv.org/abs/2401.16352v4 )

ライセンス: Link先を確認
Guang Lin, Chao Li, Jianhai Zhang, Toshihisa Tanaka, Qibin Zhao, (参考訳) ディープニューラルネットワークは、よく設計された敵攻撃に弱いことが知られている。 対戦訓練(AT)に基づく最も成功した防御技術は、特定の攻撃に対して最適な堅牢性を達成することができるが、目に見えない攻撃に対してうまく一般化できない。 対向的浄化(AP)に基づく他の効果的な防御技術は、一般化を高めることができるが、最適ロバスト性は達成できない。 一方、両手法は、劣化した標準精度の1つの共通制限を共有している。 これらの問題を緩和するために、ランダムトランスフォーメーション(RT)による摂動破壊と、逆方向の損失による微調整(FT)という2つのコンポーネントからなる、Adversarial Training on Purification(AToP)と呼ばれる堅牢なパーファイアモデルを取得するパイプラインを提案する。 RTは、既知の攻撃に対する過度な学習を避けるために不可欠であり、その結果、目に見えない攻撃に対する堅牢性一般化をもたらし、FTは堅牢性の改善に不可欠である。 そこで我々は,CIFAR-10,CIFAR-100,ImageNetteに対して,本手法が最適なロバスト性を実現し,未知の攻撃に対する一般化能力を示すことを示すため,大規模実験を行った。

The deep neural networks are known to be vulnerable to well-designed adversarial attacks. The most successful defense technique based on adversarial training (AT) can achieve optimal robustness against particular attacks but cannot generalize well to unseen attacks. Another effective defense technique based on adversarial purification (AP) can enhance generalization but cannot achieve optimal robustness. Meanwhile, both methods share one common limitation on the degraded standard accuracy. To mitigate these issues, we propose a novel pipeline to acquire the robust purifier model, named Adversarial Training on Purification (AToP), which comprises two components: perturbation destruction by random transforms (RT) and purifier model fine-tuned (FT) by adversarial loss. RT is essential to avoid overlearning to known attacks, resulting in the robustness generalization to unseen attacks, and FT is essential for the improvement of robustness. To evaluate our method in an efficient and scalable way, we conduct extensive experiments on CIFAR-10, CIFAR-100, and ImageNette to demonstrate that our method achieves optimal robustness and exhibits generalization ability against unseen attacks.
翻訳日:2024-08-26 19:58:50 公開日:2024-08-23
# 幾何合成PBR画像生成のための協調制御

Collaborative Control for Geometry-Conditioned PBR Image Generation ( http://arxiv.org/abs/2402.05919v3 )

ライセンス: Link先を確認
Shimon Vainer, Mark Boss, Mathias Parger, Konstantin Kutsy, Dante De Nigris, Ciara Rowles, Nicolas Perony, Simon Donné, (参考訳) グラフィックスパイプラインは物理ベースのレンダリング(PBR)材料を必要とするが、現在の3Dコンテンツ生成アプローチはRGBモデル上に構築されている。 本稿では,RGB 生成における測光的不正確さと,RGB から PBR を抽出する際の固有曖昧さを回避し,PBR 画像の直接分布をモデル化する。 データ不足と出力モダリティの高次元性の両方のため、既存のクロスモーダル微調整のパラダイムはPBR生成には適さないため、新しいクロスネットワーク通信パラダイムを用いて、凍結RGBモデルと密にリンクした新しいPBRモデルをトレーニングすることを提案する。 基本RGBモデルは完全に凍結されているため、提案手法は一般的な性能を維持し、そのベースモデルのeg IPAdaptersと互換性が保たれている。

Graphics pipelines require physically-based rendering (PBR) materials, yet current 3D content generation approaches are built on RGB models. We propose to model the PBR image distribution directly, avoiding photometric inaccuracies in RGB generation and the inherent ambiguity in extracting PBR from RGB. As existing paradigms for cross-modal fine-tuning are not suited for PBR generation due to both a lack of data and the high dimensionality of the output modalities, we propose to train a new PBR model that is tightly linked to a frozen RGB model using a novel cross-network communication paradigm. As the base RGB model is fully frozen, the proposed method retains its general performance and remains compatible with e.g. IPAdapters for that base model.
翻訳日:2024-08-26 19:58:50 公開日:2024-08-23
# GraphiQ:フォトニックグラフ状態のための量子回路設計

GraphiQ: Quantum circuit design for photonic graph states ( http://arxiv.org/abs/2402.09285v2 )

ライセンス: Link先を確認
Jie Lin, Benjamin MacLellan, Sobhan Ghanbari, Julie Belleville, Khuong Tran, Luc Robichaud, Roger G. Melko, Hoi-Kwong Lo, Piotr Roztocki, (参考訳) GraphiQは、フォトニックグラフ状態生成スキームを設計するための汎用的なオープンソースフレームワークであり、特に光子-エミッタハイブリッド回路に重点を置いている。 Pythonで構築されたGraphiQは、複数のシミュレーションバックエンドと最適化メソッドを含む一連のデザインツールで構成されている。 このライブラリは、回路欠陥の存在下でのスキーム最適化と、ユーザ定義の最適化目標をサポートする。 したがって,本フレームワークは,実験関連制約に固執する実践的スキームの開発に有用なツールである。 グラフ状態は、測定ベースの量子コンピューティング、全フォトニック量子リピータ、ロバスト量子メトロジーの鍵となるリソースである。

GraphiQ is a versatile open-source framework for designing photonic graph state generation schemes, with a particular emphasis on photon-emitter hybrid circuits. Built in Python, GraphiQ consists of a suite of design tools, including multiple simulation backends and optimization methods. The library supports scheme optimization in the presence of circuit imperfections, as well as user-defined optimization goals. Our framework thus represents a valuable tool for the development of practical schemes adhering to experimentally-relevant constraints. As graph states are a key resource for measurement-based quantum computing, all-photonic quantum repeaters, and robust quantum metrology, among others, we envision GraphiQ's broad impact for advancing quantum technologies.
翻訳日:2024-08-26 19:58:50 公開日:2024-08-23
# 光ツイーザを用いた原子時計干渉計測

Atomic clock interferometry using optical tweezers ( http://arxiv.org/abs/2402.14412v3 )

ライセンス: Link先を確認
Ilan Meltzer, Yoav Sagi, (参考訳) クロック干渉法(Clock interferometry)は、時計を2つの異なる経路に分割し、それらの間の適切な時間差を明らかにする方法で再結合することを指す。 2つの別々のクロックの比較とは異なり、このアプローチは非平坦な時空が量子コヒーレンスにどのように影響するかをテストすることができる。 現在、原子時計はデバイスを維持するのに最も正確な時間である。 本稿では、クロック干渉計を実装するための光ツイーザを提案する。 提案するクロック干渉計は、光学トラップに保持されるアルカリ性アース様原子を魔法の波長で利用している。 断熱型, トウィーザ型, スプリッティング, リコンビネート方式と, 時計状態のラムゼイ系列を改良することにより, 重力時間拡張に対する線形感度を実現する。 さらに、時間拡張の測定はツイーザービームの強度の相対的なゆらぎに敏感である。 我々は、ツイーザークロック干渉計を解析し、現在の技術能力で実現可能であることを示す。 提案された干渉計は、重力赤方偏移が量子コヒーレンスに与える影響をテストし、量子双対パラドックスを実装した。

Clock interferometry refers to the coherent splitting of a clock into two different paths and recombining in a way that reveals the proper time difference between them. Unlike the comparison of two separate clocks, this approach allows testing how non-flat spacetime influences quantum coherence. Atomic clocks are currently the most accurate time keeping devices. Here we propose using optical tweezers to implement clock interferometry. Our proposed clock interferometer employs an alkaline-earth-like atom held in an optical trap at the magic wavelength. Through a combination of adiabatic, tweezer-based, splitting and recombining schemes and a modified Ramsey sequence on the clock states, we achieve a linear sensitivity to the gravitational time dilation. Moreover, the measurement of the time dilation is insensitive to relative fluctuations in the intensity of the tweezer beams. We analyze the tweezer clock interferometer and show that it is feasible with current technological capabilities. The proposed interferometer could test the effect of gravitational redshift on quantum coherence, and implement the quantum twin paradox.
翻訳日:2024-08-26 19:58:50 公開日:2024-08-23
# フェデレーションニューラルグラフデータベース

Federated Neural Graph Databases ( http://arxiv.org/abs/2402.14609v3 )

ライセンス: Link先を確認
Qi Hu, Weifeng Jiang, Haoran Li, Zihao Wang, Jiaxin Bai, Qianren Mao, Yangqiu Song, Lixin Fan, Jianxin Li, (参考訳) 大規模言語モデル(LLM)の需要増加は,効率的なデータ検索機構の重要性を強調している。 ニューラルグラフデータベース(NGDB)は、グラフ構造化データをニューラル空間に格納およびクエリするための有望なアプローチとして登場し、LLMの関連情報の検索を可能にしている。 しかし、既存のNGDBは通常、1つのグラフで操作するように設計されており、複数のグラフをまたがる推論能力を制限する。 さらに、既存のNGDBにおけるマルチソースグラフデータのサポートの欠如は、実世界のデータの複雑さと多様性を捉える能力を妨げている。 多くのアプリケーションでは、データは複数のソースに分散しており、これらのソースにまたがる推論能力は、情報的な意思決定に不可欠である。 この制限は、機密性の高いグラフデータを扱う際に特に問題となる。 その結果、NGDBに依存する多くのアプリケーションは、データのプライバシを妥協するか、複数のグラフをまたいで推論する能力を犠牲にするかを選択せざるを得なくなった。 これらの制約に対処するため、プライバシを保ちながらマルチソースグラフベースのデータの推論を可能にする新しいフレームワークであるFederated Neural Graph Database (FedNGDB)を提案する。 FedNGDBは、フェデレートされた学習を活用して、複数のソースにわたるグラフ表現を協調的に学習し、エンティティ間の関係を強化し、グラフデータの全体的な品質を改善する。 既存の方法とは異なり、FedNGDBは複雑なグラフ構造と関係を扱うことができ、様々な下流タスクに適合する。

The increasing demand for large-scale language models (LLMs) has highlighted the importance of efficient data retrieval mechanisms. Neural graph databases (NGDBs) have emerged as a promising approach to storing and querying graph-structured data in neural space, enabling the retrieval of relevant information for LLMs. However, existing NGDBs are typically designed to operate on a single graph, limiting their ability to reason across multiple graphs. Furthermore, the lack of support for multi-source graph data in existing NGDBs hinders their ability to capture the complexity and diversity of real-world data. In many applications, data is distributed across multiple sources, and the ability to reason across these sources is crucial for making informed decisions. This limitation is particularly problematic when dealing with sensitive graph data, as directly sharing and aggregating such data poses significant privacy risks. As a result, many applications that rely on NGDBs are forced to choose between compromising data privacy or sacrificing the ability to reason across multiple graphs. To address these limitations, we propose Federated Neural Graph Database (FedNGDB), a novel framework that enables reasoning over multi-source graph-based data while preserving privacy. FedNGDB leverages federated learning to collaboratively learn graph representations across multiple sources, enriching relationships between entities and improving the overall quality of the graph data. Unlike existing methods, FedNGDB can handle complex graph structures and relationships, making it suitable for various downstream tasks.
翻訳日:2024-08-26 19:58:50 公開日:2024-08-23
# 蒸留コントラスト復号法: 蒸留コントラスト復号法と蒸留法を併用したLCMの改良

Distillation Contrastive Decoding: Improving LLMs Reasoning with Contrastive Decoding and Distillation ( http://arxiv.org/abs/2402.14874v2 )

ライセンス: Link先を確認
Phuc Phan, Hieu Tran, Long Phan, (参考訳) 本稿では,大規模言語モデル (LLM) の推論能力を高めるため,DCD (Distillation Contrastive Decoding) という簡単な手法を提案する。 より小さなアマチュアモデルや隠れ状態の違いの分析に頼っていた従来のアプローチとは対照的に、DCDはContrastive Chain-of- Thought PromptingとDropoutやQuantizationといった高度な蒸留技術を採用している。 このアプローチは、専門家とアマチュアモデルの両方を必要とするコントラストデコーディング(CD)の限界に効果的に対処する。 対照的なプロンプトと蒸留を統合することで、DCDはアマチュアモデルの必要性を排除し、メモリ使用量を減らす。 GSM8KデータセットとStrategyQAデータセットのCDおよび既存手法に比較して,DCDがLLM性能を大幅に向上することを示す。

We propose a straightforward approach called Distillation Contrastive Decoding (DCD) to enhance the reasoning capabilities of Large Language Models (LLMs) during inference. In contrast to previous approaches that relied on smaller amateur models or analysis of hidden state differences, DCD employs Contrastive Chain-of-thought Prompting and advanced distillation techniques, including Dropout and Quantization. This approach effectively addresses the limitations of Contrastive Decoding (CD), which typically requires both an expert and an amateur model, thus increasing computational resource demands. By integrating contrastive prompts with distillation, DCD obviates the need for an amateur model and reduces memory usage. Our evaluations demonstrate that DCD significantly enhances LLM performance across a range of reasoning benchmarks, surpassing both CD and existing methods in the GSM8K and StrategyQA datasets.
翻訳日:2024-08-26 19:58:50 公開日:2024-08-23
# 画像超解像のための不均一動的畳み込みニューラルネットワーク

A Heterogeneous Dynamic Convolutional Neural Network for Image Super-resolution ( http://arxiv.org/abs/2402.15704v2 )

ライセンス: Link先を確認
Chunwei Tian, Xuanyu Zhang, Tao Wang, Wangmeng Zuo, Yanning Zhang, Chia-Wen Lin, (参考訳) 畳み込みニューラルネットワークは、ディープネットワークアーキテクチャと与えられた入力サンプルを介して、機能を自動的に学習することができる。 しかし、得られたモデルの堅牢性は、様々な場面で困難を伴う可能性がある。 ネットワークアーキテクチャの大きな違いは、より補完的な構造情報を抽出し、得られた超解像モデルの堅牢性を高めるのに有用である。 本稿では,画像超解像(HDSRNet)における異種動的畳み込みネットワークを提案する。 より多くの情報を取得するために、HDSRNetは異種並列ネットワークによって実装される。 上層ネットワークは、画像超解像の効果を改善するために、積み重ねた異種ブロックを介してよりコンテキスト情報を容易にすることができる。 各ヘテロジニアスブロックは、拡張された動的で共通の畳み込み層、ReLUおよび残差学習操作の組み合わせで構成されている。 異なる入力によってパラメータを適応的に調整できるだけでなく、長期依存の問題も防止できる。 下位のネットワークは対称的なアーキテクチャを用いて異なるレイヤの関係を強化し、より構造的な情報をマイニングし、画像超解像のための上層ネットワークと補完する。 実験結果から,HDSRNetは画像解決に有効であることが示唆された。 HDSRNetのコードはhttps://github.com/hellloxiaotian/HDSRNetで入手できる。

Convolutional neural networks can automatically learn features via deep network architectures and given input samples. However, robustness of obtained models may have challenges in varying scenes. Bigger differences of a network architecture are beneficial to extract more complementary structural information to enhance robustness of an obtained super-resolution model. In this paper, we present a heterogeneous dynamic convolutional network in image super-resolution (HDSRNet). To capture more information, HDSRNet is implemented by a heterogeneous parallel network. The upper network can facilitate more contexture information via stacked heterogeneous blocks to improve effects of image super-resolution. Each heterogeneous block is composed of a combination of a dilated, dynamic, common convolutional layers, ReLU and residual learning operation. It can not only adaptively adjust parameters, according to different inputs, but also prevent long-term dependency problem. The lower network utilizes a symmetric architecture to enhance relations of different layers to mine more structural information, which is complementary with a upper network for image super-resolution. The relevant experimental results show that the proposed HDSRNet is effective to deal with image resolving. The code of HDSRNet can be obtained at https://github.com/hellloxiaotian/HDSRNet.
翻訳日:2024-08-26 19:58:50 公開日:2024-08-23
# 暗黙的生成前駆体を用いた低光位相探索

Low-light phase retrieval with implicit generative priors ( http://arxiv.org/abs/2402.17745v2 )

ライセンス: Link先を確認
Raunak Manekar, Elisa Negrini, Minh Pham, Daniel Jacobs, Jaideep Srivastava, Stanley J. Osher, Jianwei Miao, (参考訳) 相検索(PR)は、科学的イメージングにおいて基本的に重要であり、コヒーレント・ディファレント・イメージング(CDI)のようなナノスケール技術において重要である。 低放射線線量イメージングは放射線感受性試料の応用に不可欠である。 しかし,ほとんどのPR手法は高ノイズのため,低線量のシナリオでは困難である。 近年のIn-situ CDIのような光学データ取得装置の進歩は、低線量撮像の可能性を示してきたが、測定の時系列に依存するため、単一画像アプリケーションには適さない。 同様に、データ駆動位相検索技術は、データスカース状況に容易に適応できない。 事前訓練および暗黙的な生成前処理に基づくゼロショット深層学習法は,様々な画像処理に有効であるが,PRではほとんど成功していない。 そこで本研究では,CDIと暗黙的生成前処理の能力を組み合わせた低線量深度画像検索(LoDIP)を提案する。 この課題におけるLoDIPの優れた性能と実際の実験シナリオへの適用性を定量的に評価した。

Phase retrieval (PR) is fundamentally important in scientific imaging and is crucial for nanoscale techniques like coherent diffractive imaging (CDI). Low radiation dose imaging is essential for applications involving radiation-sensitive samples. However, most PR methods struggle in low-dose scenarios due to high shot noise. Recent advancements in optical data acquisition setups, such as in-situ CDI, have shown promise for low-dose imaging, but they rely on a time series of measurements, making them unsuitable for single-image applications. Similarly, data-driven phase retrieval techniques are not easily adaptable to data-scarce situations. Zero-shot deep learning methods based on pre-trained and implicit generative priors have been effective in various imaging tasks but have shown limited success in PR. In this work, we propose low-dose deep image prior (LoDIP), which combines in-situ CDI with the power of implicit generative priors to address single-image low-dose phase retrieval. Quantitative evaluations demonstrate LoDIP's superior performance in this task and its applicability to real experimental scenarios.
翻訳日:2024-08-26 19:58:50 公開日:2024-08-23
# ChatSpamDetector: 効率的なフィッシングメール検出のための大規模言語モデルを活用する

ChatSpamDetector: Leveraging Large Language Models for Effective Phishing Email Detection ( http://arxiv.org/abs/2402.18093v2 )

ライセンス: Link先を確認
Takashi Koide, Naoki Fukushi, Hiroki Nakano, Daiki Chiba, (参考訳) フィッシングサイトやメールの普及は、既存のサイバーセキュリティ活動に重大な課題をもたらしている。 悪意のあるメールフィルターやメールセキュリティプロトコルの進歩にもかかわらず、監視と偽陽性の問題は続いている。 ユーザーは、なぜメールが詐欺行為の可能性があると警告されるのかを理解するのに苦労し、重要なコミュニケーションの欠如や、偽造メールを誤って信用するリスクを負う。 本研究では,大規模な言語モデル(LLM)を用いてフィッシングメールを検出するシステムChatSpamDetectorを紹介する。 LLM解析に適したプロンプトに電子メールデータを変換することにより、電子メールがフィッシングされているか否かを高精度に判定する。 重要なことは、フィッシングの判断の詳細な理由を提供し、不審なメールの扱い方に関する決定をユーザーが下すのを助けることだ。 総合的なフィッシングメールデータセットを用いて評価を行い,複数のLLMおよびベースラインシステムと比較した。 我々は,GPT-4を用いたシステムは,99.70%の精度で優れた検出能力を有することを確認した。 LLMによる高度な文脈解釈により、様々なフィッシング戦術と偽装の識別が可能となり、電子メールベースのフィッシング脅威との戦いにおいて潜在的に強力なツールとなる。

The proliferation of phishing sites and emails poses significant challenges to existing cybersecurity efforts. Despite advances in malicious email filters and email security protocols, problems with oversight and false positives persist. Users often struggle to understand why emails are flagged as potentially fraudulent, risking the possibility of missing important communications or mistakenly trusting deceptive phishing emails. This study introduces ChatSpamDetector, a system that uses large language models (LLMs) to detect phishing emails. By converting email data into a prompt suitable for LLM analysis, the system provides a highly accurate determination of whether an email is phishing or not. Importantly, it offers detailed reasoning for its phishing determinations, assisting users in making informed decisions about how to handle suspicious emails. We conducted an evaluation using a comprehensive phishing email dataset and compared our system to several LLMs and baseline systems. We confirmed that our system using GPT-4 has superior detection capabilities with an accuracy of 99.70%. Advanced contextual interpretation by LLMs enables the identification of various phishing tactics and impersonations, making them a potentially powerful tool in the fight against email-based phishing threats.
翻訳日:2024-08-26 19:58:50 公開日:2024-08-23
# オールシーティングプロジェクトV2:オープンワールドの総合的理解を目指して

The All-Seeing Project V2: Towards General Relation Comprehension of the Open World ( http://arxiv.org/abs/2402.19474v4 )

ライセンス: Link先を確認
Weiyun Wang, Yiming Ren, Haowen Luo, Tiantong Li, Chenxiang Yan, Zhe Chen, Wenhai Wang, Qingyun Li, Lewei Lu, Xizhou Zhu, Yu Qiao, Jifeng Dai, (参考訳) 本稿では、画像のオブジェクト関係を理解するために設計された新しいモデルとデータセットであるAll-Seeing Project V2を紹介する。 具体的には、テキスト生成、オブジェクトローカライゼーション、関係理解の定式化をRelation conversation (ReC)タスクに統合するAll-Seeing Model V2 (ASMv2)を提案する。 この統合タスクを活用することで、我々のモデルは画像内の全てのオブジェクトを認識・認識するだけでなく、それらの間の複雑な関係グラフの把握にも優れ、マルチモーダル大言語モデル(MLLM)でしばしば発生する関係幻覚を減少させる。 関係理解におけるMLLMのトレーニングと評価を容易にするため,我々は,標準命令チューニングデータの形式に適合した最初の高品質ReCデータセット({AS-V2)を作成した。 さらに,MLLMの関連理解能力を包括的に評価するために,Circular-based Relation Probing Evaluation (CRPE) と呼ばれる新しいベンチマークを設計した。 特に、我々のASMv2は、LLaVA-1.5の43.14よりも大きなマージンで、この関係対応ベンチマークで52.04の全体的な精度を達成した。 私たちの研究が、より将来の研究を刺激し、人工知能への進化に貢献できることを願っています。 私たちのプロジェクトはhttps://github.com/OpenGVLab/all-seeing.comで公開されています。

We present the All-Seeing Project V2: a new model and dataset designed for understanding object relations in images. Specifically, we propose the All-Seeing Model V2 (ASMv2) that integrates the formulation of text generation, object localization, and relation comprehension into a relation conversation (ReC) task. Leveraging this unified task, our model excels not only in perceiving and recognizing all objects within the image but also in grasping the intricate relation graph between them, diminishing the relation hallucination often encountered by Multi-modal Large Language Models (MLLMs). To facilitate training and evaluation of MLLMs in relation understanding, we created the first high-quality ReC dataset ({AS-V2) which is aligned with the format of standard instruction tuning data. In addition, we design a new benchmark, termed Circular-based Relation Probing Evaluation (CRPE) for comprehensively evaluating the relation comprehension capabilities of MLLMs. Notably, our ASMv2 achieves an overall accuracy of 52.04 on this relation-aware benchmark, surpassing the 43.14 of LLaVA-1.5 by a large margin. We hope that our work can inspire more future research and contribute to the evolution towards artificial general intelligence. Our project is released at https://github.com/OpenGVLab/all-seeing.
翻訳日:2024-08-26 19:58:50 公開日:2024-08-23
# ガウススプラッティングによるビュー一貫性3次元編集

View-Consistent 3D Editing with Gaussian Splatting ( http://arxiv.org/abs/2403.11868v8 )

ライセンス: Link先を確認
Yuxuan Wang, Xuanyu Yi, Zike Wu, Na Zhao, Long Chen, Hanwang Zhang, (参考訳) 3D Gaussian Splatting (3DGS)の出現は、3D編集に革命をもたらし、効率よく高忠実なレンダリングを提供し、正確な局所的な操作を可能にした。 現在、拡散ベースの2D編集モデルを用いて、マルチビューレンダリング画像を修正し、3DGSモデルの編集をガイドしている。 しかし、このアプローチは多視点不整合の重要な問題に直面しており、誘導画像はビュー間で大きな相違を示し、モード崩壊と3DGSの視覚的アーティファクトをもたらす。 この目的のために、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークであるView-Consistent Editing (VcEdit)を導入する。 VcEditには、Cross-attention Consistency ModuleとEditing Consistency Moduleという2つの革新的な一貫性モジュールがある。 これらの一貫性モジュールを反復的なパターンに組み込むことで、VcEditは多視点不整合の問題を解決し、様々な場面で高品質な3DGS編集を容易にする。 さらなるビデオ結果は http://vcedit.github.io に示されている。

The advent of 3D Gaussian Splatting (3DGS) has revolutionized 3D editing, offering efficient, high-fidelity rendering and enabling precise local manipulations. Currently, diffusion-based 2D editing models are harnessed to modify multi-view rendered images, which then guide the editing of 3DGS models. However, this approach faces a critical issue of multi-view inconsistency, where the guidance images exhibit significant discrepancies across views, leading to mode collapse and visual artifacts of 3DGS. To this end, we introduce View-consistent Editing (VcEdit), a novel framework that seamlessly incorporates 3DGS into image editing processes, ensuring multi-view consistency in edited guidance images and effectively mitigating mode collapse issues. VcEdit employs two innovative consistency modules: the Cross-attention Consistency Module and the Editing Consistency Module, both designed to reduce inconsistencies in edited images. By incorporating these consistency modules into an iterative pattern, VcEdit proficiently resolves the issue of multi-view inconsistency, facilitating high-quality 3DGS editing across a diverse range of scenes. Further video results are shown in http://vcedit.github.io.
翻訳日:2024-08-26 19:58:50 公開日:2024-08-23
# 新しいリファクタリングと意味認識型抽象構文木辞書ツールとディフツールの精度評価のためのベンチマーク

A Novel Refactoring and Semantic Aware Abstract Syntax Tree Differencing Tool and a Benchmark for Evaluating the Accuracy of Diff Tools ( http://arxiv.org/abs/2403.05939v2 )

ライセンス: Link先を確認
Pouria Alikhanifard, Nikolaos Tsantalis, (参考訳) ソフトウェアは新しい要件をサポートし、バグに対処し、パフォーマンスを向上し、メンテナンス性を確保するために、常に変更を行う。 このように、開発者は仕事のほとんどをチームメイトのコード変更を理解し、レビューするために費やします。 抽象構文木(AST)diffツールは、ほとんどの開発者が使っている行ベースのdiffツールの制限を克服するために開発された。 複雑な変更を理解するためのAST diffツールによる顕著な改善にもかかわらず、(1)マルチマッピングサポートの欠如、(2)セマンティックに互換性のないASTノードのマッチング、(3)マッチングプロセスをガイドする言語ヒントの無視、(4)リファクタリングの意識の欠如、(5)コミットレベルのdiffサポートの欠如など、深刻な制限に悩まされている。 上記の制限をすべて解決するRefactoringMinerに基づく新しいAST diffツールを提案する。 まず、RefactoringMinerを改善して、ステートメントマッピングの精度を向上させるとともに、RefactoringMinerが提供するリファクタリングインスタンスとマッチしたプログラム要素のペアに基づいて、所定のコミットやプルリクエストに対してAST diffを生成するアルゴリズムを開発しました。 ツールの精度を評価し、最先端のツールと比較するため、800のバグ修正コミットと188のリファクタリングコミットを含むASTノードマッピングの最初のベンチマークを作成しました。 評価の結果,我々のツールは,特にコミットのリファクタリングにおいて,より高速なツールに匹敵する実行時間で,大幅な精度の向上とリコールを実現していることがわかった。

Software undergoes constant changes to support new requirements, address bugs, enhance performance, and ensure maintainability. Thus, developers spend a great portion of their workday trying to understand and review the code changes of their teammates. Abstract Syntax Tree (AST) diff tools were developed to overcome the limitations of line-based diff tools, which are used by the majority of developers. Despite the notable improvements brought by AST diff tools in understanding complex changes, they still suffer from serious limitations, such as (1) lacking multi-mapping support, (2) matching semantically incompatible AST nodes, (3) ignoring language clues to guide the matching process, (4) lacking refactoring awareness, and (5) lacking commit-level diff support. We propose a novel AST diff tool based on RefactoringMiner that resolves all aforementioned limitations. First, we improved RefactoringMiner to increase its statement mapping accuracy, and then we developed an algorithm that generates AST diff for a given commit or pull request based on the refactoring instances and pairs of matched program element declarations provided by RefactoringMiner. To evaluate the accuracy of our tool and compare it with the state-of-the-art tools, we created the first benchmark of AST node mappings, including 800 bug-fixing commits and 188 refactoring commits. Our evaluation showed that our tool achieved a considerably higher precision and recall, especially for refactoring commits, with an execution time that is comparable with that of the faster tools.
翻訳日:2024-08-26 19:49:07 公開日:2024-08-23
# 重力波による重力の量子指紋の解き方

Unveiling gravity's quantum fingerprint through gravitational waves ( http://arxiv.org/abs/2403.11253v2 )

ライセンス: Link先を確認
Partha Nandi, Bibhas Ranjan Majhi, (参考訳) 本稿では,新しい理論枠組みを用いて重力の量子的側面を探索する革新的な手法を提案する。 我々のモデルは、LOCCの原理によって課された古典的な通信制限をサイドステッピングしながら、重力誘起絡み合い(GIE)に発展する。 具体的には、非相対論的2次元量子発振器検出器と線形偏極重力波(GWs)を接続し、GWsに固有の量子特性を活用し、発振器の量子状態内でGIEを観測する。 我々のモデルは `event' と `system" の局所性の両方に従属するので、検出された GIE は重力の量子的性質の堅牢な指標となる。 重力波検出器によるこの絡み合いの検出は、重力の量子化を腐食させ、その源の重要な特性を明らかにする可能性がある。

We introduce an innovative method to explore gravity's quantum aspects using a novel theoretical framework. Our model delves into gravity-induced entanglement (GIE) while sidestepping classical communication limitations imposed by the LOCC principle. Specifically, we connect a non-relativistic two-dimensional quantum oscillator detector with linearly polarized gravitational waves (GWs), leveraging the quantum properties inherent in GWs to observe GIE within the oscillator's quantum states. Because our model adheres to both the ``event" and the ``system" localities, the detected GIE serves as a robust indicator of gravity's quantum nature. Detecting this entanglement via gravitational wave detectors could corroborate gravity's quantization and unveil crucial properties of its sources.
翻訳日:2024-08-26 19:49:07 公開日:2024-08-23
# AICL:ビデオ拡散モデルのためのアクション・インコンテキスト・ラーニング

AICL: Action In-Context Learning for Video Diffusion Model ( http://arxiv.org/abs/2403.11535v2 )

ライセンス: Link先を確認
Jianzhi Liu, Junchen Zhu, Lianli Gao, Heng Tao Shen, Jingkuan Song, (参考訳) オープンドメインのビデオ生成モデルは、トレーニングビデオデータセットの規模によって制限されており、あまり一般的でないアクションは生成できない。 一部の研究者は、同じアクションビデオの空間情報を編集することで、動画編集手法を探求し、アクション生成を実現する。 しかし,本手法は,オープンドメインシナリオの特徴と一致しない,理解のない同一動作を機械的に生成する。 本稿では,AICLを提案する。AICLは,テキスト内学習を通じて,人間が行うのと同じように,参照ビデオにおける行動情報を理解する能力を備えた生成モデルを実現する。 大規模な実験により、AICLはアクションを効果的にキャプチャし、トレーニングされていないデータセットからランダムに選択されたカテゴリを使用する場合、5つのメトリクスで3つの典型的なビデオ拡散モデルにまたがる最先端の生成性能を達成することが示された。

The open-domain video generation models are constrained by the scale of the training video datasets, and some less common actions still cannot be generated. Some researchers explore video editing methods and achieve action generation by editing the spatial information of the same action video. However, this method mechanically generates identical actions without understanding, which does not align with the characteristics of open-domain scenarios. In this paper, we propose AICL, which empowers the generative model with the ability to understand action information in reference videos, similar to how humans do, through in-context learning. Extensive experiments demonstrate that AICL effectively captures the action and achieves state-of-the-art generation performance across three typical video diffusion models on five metrics when using randomly selected categories from non-training datasets.
翻訳日:2024-08-26 19:49:07 公開日:2024-08-23
# 熱画像を用いたマルチモーダルニューラルシーン表現の探索

Exploring Multi-modal Neural Scene Representations With Applications on Thermal Imaging ( http://arxiv.org/abs/2403.11865v2 )

ライセンス: Link先を確認
Mert Özer, Maximilian Weiherer, Martin Hundhausen, Bernhard Egger, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、RGB画像のセットでトレーニングする際、新しいビュー合成タスクのための新しいデファクト標準として急速に進化した。 本稿では,マルチモーダル学習の文脈において,NeRFなどのニューラルシーン表現を包括的に評価する。 具体的には,RGB以外の2次モダリティをNeRFに組み込むための4つの戦略を提示する。(1) 両方のモダリティに独立してスクラッチからトレーニングすること,(2) RGBの事前トレーニングと2次モダリティの微調整を行うこと,(3) 第二分枝を追加すること,(4) 追加モダリティの(色)値を予測するために別成分を追加すること,である。 熱画像はRGBとラジオシティの点で大きく異なるため,第2のモダリティとして選択した。 提案手法の評価のために,6つの共通オブジェクトと約360RGBのサーマルイメージからなる,公開された新しいマルチビューデータセットであるThermialMixを収集した。 データキャプチャに先立ってモダリティ校正を行い、RGBと熱画像の高品質なアライメントを実現した。 以上の結果から,第2分枝をNeRFに付加することは熱画像の新規なビュー合成に最適であり,かつRGBに有意な結果をもたらすことが判明した。 最後に、近赤外画像や深度マップなど他のモードに一般化した分析結果を示す。 プロジェクトページ: https://mert-o.github.io/ThermalNeRF/。

Neural Radiance Fields (NeRFs) quickly evolved as the new de-facto standard for the task of novel view synthesis when trained on a set of RGB images. In this paper, we conduct a comprehensive evaluation of neural scene representations, such as NeRFs, in the context of multi-modal learning. Specifically, we present four different strategies of how to incorporate a second modality, other than RGB, into NeRFs: (1) training from scratch independently on both modalities; (2) pre-training on RGB and fine-tuning on the second modality; (3) adding a second branch; and (4) adding a separate component to predict (color) values of the additional modality. We chose thermal imaging as second modality since it strongly differs from RGB in terms of radiosity, making it challenging to integrate into neural scene representations. For the evaluation of the proposed strategies, we captured a new publicly available multi-view dataset, ThermalMix, consisting of six common objects and about 360 RGB and thermal images in total. We employ cross-modality calibration prior to data capturing, leading to high-quality alignments between RGB and thermal images. Our findings reveal that adding a second branch to NeRF performs best for novel view synthesis on thermal images while also yielding compelling results on RGB. Finally, we also show that our analysis generalizes to other modalities, including near-infrared images and depth maps. Project page: https://mert-o.github.io/ThermalNeRF/.
翻訳日:2024-08-26 19:49:07 公開日:2024-08-23
# 微分プライベートな合成データは合成発見につながるか?

Does Differentially Private Synthetic Data Lead to Synthetic Discoveries? ( http://arxiv.org/abs/2403.13612v2 )

ライセンス: Link先を確認
Ileana Montoya Perez, Parisa Movahedi, Valtteri Nieminen, Antti Airola, Tapio Pahikkala, (参考訳) 背景: バイオメディカルデータセットの匿名バージョンを共有するソリューションとして、合成データが提案されている。 理想的には、合成データは、個々の被験者のプライバシーを保護しながら、元のデータの構造と統計特性を保存するべきである。 微分プライバシー(DP)は現在、このトレードオフのバランスをとるための金の標準的アプローチと考えられている。 目的:DP合成データに対する独立したサンプルテストにより同定されたグループ差の信頼性について検討する。 評価は、テストのタイプIとタイプIIのエラーの観点から行われる。 前者は、テストの妥当性、すなわち偽発見の確率が実際に重要なレベル以下であるかどうかを定量化し、後者は実際の発見を行う際のテストの力を示す。 方法: DP合成データを用いたMann-Whitney U検定, 学生のt-test, chi-squared検定, 中央値検定について検討した。 プライベートな合成データセットは、前立腺がんデータセット(n=500)と心臓血管データセット(n=70000)を含む実世界のデータから生成される。 2つの基本DPヒストグラム解放法とMWEM,Private-PGM,DP GANアルゴリズムを含む5種類のDP合成データ生成手法の評価を行った。 結論: 評価結果の大部分は,特にプライバシー予算が$\epsilon\leq 1$である場合に,I型エラーが劇的に膨らんだことを示している。 この結果は、DP合成データを公開して分析する際に注意が必要である: プライバシーを保護するために追加されたノイズの副産物として、統計的テストで低いp値を得ることができる。 DPスムーズなヒストグラムベースの合成データ生成手法により、テスト対象のすべてのプライバシレベルに対して有効なType Iエラーを生成することができたが、適切なType IIエラーを得るためには、大きなデータセットサイズと控えめなプライバシ予算($\epsilon\geq 5$)が必要だった。

Background: Synthetic data has been proposed as a solution for sharing anonymized versions of sensitive biomedical datasets. Ideally, synthetic data should preserve the structure and statistical properties of the original data, while protecting the privacy of the individual subjects. Differential privacy (DP) is currently considered the gold standard approach for balancing this trade-off. Objectives: To investigate the reliability of group differences identified by independent sample tests on DP-synthetic data. The evaluation is conducted in terms of the tests' Type I and Type II errors. The former quantifies the tests' validity i.e. whether the probability of false discoveries is indeed below the significance level, and the latter indicates the tests' power in making real discoveries. Methods: We evaluate the Mann-Whitney U test, Student's t-test, chi-squared test and median test on DP-synthetic data. The private synthetic datasets are generated from real-world data, including a prostate cancer dataset (n=500) and a cardiovascular dataset (n=70 000), as well as on bivariate and multivariate simulated data. Five different DP-synthetic data generation methods are evaluated, including two basic DP histogram release methods and MWEM, Private-PGM, and DP GAN algorithms. Conclusion: A large portion of the evaluation results expressed dramatically inflated Type I errors, especially at privacy budget levels of $\epsilon\leq 1$. This result calls for caution when releasing and analyzing DP-synthetic data: low p-values may be obtained in statistical tests simply as a byproduct of the noise added to protect privacy. A DP smoothed histogram-based synthetic data generation method was shown to produce valid Type I error for all privacy levels tested but required a large original dataset size and a modest privacy budget ($\epsilon\geq 5$) in order to have reasonable Type II error.
翻訳日:2024-08-26 19:49:07 公開日:2024-08-23
# セマンティックガウス:3次元ガウススプレイティングによるオープン語彙シーン理解

Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting ( http://arxiv.org/abs/2403.15624v2 )

ライセンス: Link先を確認
Jun Guo, Xiaojian Ma, Yue Fan, Huaping Liu, Qing Li, (参考訳) オープンボキャブラリ3Dシーン理解はコンピュータビジョンにおいて重要な課題であり、エンボディエージェントや拡張現実システムに広く応用されている。 既存の手法では3次元表現としてニューロレンダリング法を採用し、色と意味を共同で最適化し、レンダリングとシーン理解を同時に実現している。 本稿では,セマンティック・ガウス(Semantic Gaussian)について紹介する。 私たちのキーとなるアイデアは、2D事前訓練されたモデルから3Dガウシアンへの知識の抽出です。 既存の手法とは違って,事前学習した画像エンコーダから,空間的関係をベースとした新たな3次元ガウス成分に,様々な2次元意味的特徴をマッピングする多目的投影手法を設計する。 さらに、高速な推論のために、生の3Dガウスから意味コンポーネントを直接予測する3Dセマンティックネットワークを構築します。 ScanNetセグメンテーションとLERFオブジェクトローカライゼーションの定量的結果は,本手法の優れた性能を実証している。 さらに,2次元および3次元ベースライン上での質的結果が向上し,対象部分のセグメンテーション,インスタンスのセグメンテーション,シーンの編集,時空間のセグメンテーションといったセマンティック・ガウスの応用についても検討し,多様な下流タスクに対する汎用性と有効性を強調した。

Open-vocabulary 3D scene understanding presents a significant challenge in computer vision, with wide-ranging applications in embodied agents and augmented reality systems. Existing methods adopt neurel rendering methods as 3D representations and jointly optimize color and semantic features to achieve rendering and scene understanding simultaneously. In this paper, we introduce Semantic Gaussians, a novel open-vocabulary scene understanding approach based on 3D Gaussian Splatting. Our key idea is to distill knowledge from 2D pre-trained models to 3D Gaussians. Unlike existing methods, we design a versatile projection approach that maps various 2D semantic features from pre-trained image encoders into a novel semantic component of 3D Gaussians, which is based on spatial relationship and need no additional training. We further build a 3D semantic network that directly predicts the semantic component from raw 3D Gaussians for fast inference. The quantitative results on ScanNet segmentation and LERF object localization demonstates the superior performance of our method. Additionally, we explore several applications of Semantic Gaussians including object part segmentation, instance segmentation, scene editing, and spatiotemporal segmentation with better qualitative results over 2D and 3D baselines, highlighting its versatility and effectiveness on supporting diverse downstream tasks.
翻訳日:2024-08-26 19:49:07 公開日:2024-08-23
# 逆浄化のためのロバスト拡散モデル

Robust Diffusion Models for Adversarial Purification ( http://arxiv.org/abs/2403.16067v3 )

ライセンス: Link先を確認
Guang Lin, Zerui Tao, Jianhai Zhang, Toshihisa Tanaka, Qibin Zhao, (参考訳) 拡散モデル (DM) に基づく対向的浄化 (AP) は、対向的訓練 (AT) の最も強力な代替手段であることが示されている。 しかし、これらの手法は、事前訓練された拡散モデル自体が敵攻撃に対しても堅牢ではないという事実を無視している。 さらに、拡散処理は意味情報を容易に破壊し、高品質な画像を生成することができるが、逆処理後の元の入力画像とは全く異なるので、標準精度が劣化する。 これらの問題を克服するためには、計算的に禁止されている事前学習拡散モデルを再訓練または微調整するために、敵の訓練戦略を活用することが自然な考えである。 本稿では,従来のDMとは無関係に,DMの再訓練や微調整を回避できる新しい逆過程を提案する。 この堅牢なガイダンスは、より多くのセマンティックコンテンツを保持する精製例を生成するだけでなく、DMの正確さと損耗のトレードオフを初めて緩和すると同時に、DMベースのAPが新たな攻撃に対して効果的な適応能力を提供する。 CIFAR-10, CIFAR-100, ImageNet で大規模な実験を行い, 提案手法が最先端の結果を達成し, 異なる攻撃に対する一般化を示すことを示す。

Diffusion models (DMs) based adversarial purification (AP) has shown to be the most powerful alternative to adversarial training (AT). However, these methods neglect the fact that pre-trained diffusion models themselves are not robust to adversarial attacks as well. Additionally, the diffusion process can easily destroy semantic information and generate a high quality image but totally different from the original input image after the reverse process, leading to degraded standard accuracy. To overcome these issues, a natural idea is to harness adversarial training strategy to retrain or fine-tune the pre-trained diffusion model, which is computationally prohibitive. We propose a novel robust reverse process with adversarial guidance, which is independent of given pre-trained DMs and avoids retraining or fine-tuning the DMs. This robust guidance can not only ensure to generate purified examples retaining more semantic content but also mitigate the accuracy-robustness trade-off of DMs for the first time, which also provides DM-based AP an efficient adaptive ability to new attacks. Extensive experiments are conducted on CIFAR-10, CIFAR-100 and ImageNet to demonstrate that our method achieves the state-of-the-art results and exhibits generalization against different attacks.
翻訳日:2024-08-26 19:49:07 公開日:2024-08-23
# RSTAR:4次元CBCTにおける回転ストリークアーティファクトの分離・循環的畳み込みによる低減

RSTAR: Rotational Streak Artifact Reduction in 4D CBCT using Separable and Circular Convolutions ( http://arxiv.org/abs/2403.16361v2 )

ライセンス: Link先を確認
Ziheng Deng, Hua Chen, Haibo Hu, Zhiyong Xu, Jiayuan Sun, Tianling Lyu, Yan Xi, Yang Chen, Jun Zhao, (参考訳) 4次元コーンビームCT(4D CBCT)は呼吸分解画像を提供し、放射線治療に用いられる。 しかし、呼吸運動を明らかにする能力は、イメージアーティファクトのコストがかかる。 生のプロジェクションデータを複数の呼吸相に分類すると、コーンビームプロジェクションはよりスペーサーになり、再構成された4D CBCT画像は厳しいストリークアーティファクトで被覆される。 この問題に対処するためにいくつかのディープラーニングベースの手法が提案されているが、ほとんどのアルゴリズムは2Dネットワークモデルをバックボーンとして採用しており、4D CBCT画像内の固有の構造的先行性を無視している。 本稿では,まず4次元CBCT画像におけるストリークアーティファクトの起源と外観について検討する。 時空間領域における横隔膜駆動呼吸運動と区別し, ストリークアーティファクトは呼吸とともに独特の回転運動を示すことがわかった。 そこで本研究では、4次元CBCT画像に空間情報と時間情報を統合することにより、回転STreakアーチファクト削減に対処する新しい4次元ニューラルネットワークモデルRSTAR4D-Netを提案する。 具体的には、4Dニューラルネットワークの計算とトレーニングの難しさを克服する。 特別に設計されたモデルは、4D畳み込みの効率的な実装を採用し、計算コストを削減し、4D画像全体を1パスで処理することができる。 さらに,分離可能な4Dコンボリューションに関連するテトリストレーニング戦略を提案し,限られた4Dトレーニングサンプルを用いてモデルを効果的にトレーニングする。 大規模な実験により提案手法の有効性が実証され,RSTAR4D-Netは他の手法と比較して優れた性能を示した。 ソースコードと動的デモはhttps://github.com/ivy90921111/RSTARで公開されている。

Four-dimensional cone-beam computed tomography (4D CBCT) provides respiration-resolved images and can be used for image-guided radiation therapy. However, the ability to reveal respiratory motion comes at the cost of image artifacts. As raw projection data are sorted into multiple respiratory phases, the cone-beam projections become much sparser and the reconstructed 4D CBCT images will be covered by severe streak artifacts. Although several deep learning-based methods have been proposed to address this issue, most algorithms employ 2D network models as backbones, neglecting the intrinsic structural priors within 4D CBCT images. In this paper, we first explore the origin and appearance of streak artifacts in 4D CBCT images. We find that streak artifacts exhibit a unique rotational motion along with the patient's respiration, distinguishable from diaphragm-driven respiratory motion in the spatiotemporal domain. Therefore, we propose a novel 4D neural network model, RSTAR4D-Net, designed to address Rotational STreak Artifact Reduction by integrating the spatial and temporal information within 4D CBCT images. Specifically, we overcome the computational and training difficulties of a 4D neural network. The specially designed model adopts an efficient implementation of 4D convolutions to reduce computational costs and thus can process the whole 4D image in one pass. Additionally, a Tetris training strategy pertinent to the separable 4D convolutions is proposed to effectively train the model using limited 4D training samples. Extensive experiments substantiate the effectiveness of our proposed method, and the RSTAR4D-Net shows superior performance compared to other methods. The source code and dynamic demos are available at https://github.com/ivy9092111111/RSTAR.
翻訳日:2024-08-26 19:49:07 公開日:2024-08-23
# AirPilot:ロバストな自律飛行のためのPPOベースのDRL自動調整型非線形PIDドローンコントローラ

AirPilot: A PPO-based DRL Auto-Tuned Nonlinear PID Drone Controller for Robust Autonomous Flights ( http://arxiv.org/abs/2404.00204v3 )

ライセンス: Link先を確認
Junyang Zhang, Cristian Emanuel Ocampo Rivera, Kyle Tyni, Steven Nguyen, Ulices Santa Cruz Leal, Yasser Shoukry, (参考訳) 航法精度、速度、安定性は、無人航空機(UAV)の安全な飛行操作および動的環境における効果的な飛行ミッション実行に不可欠である。 異なる飛行ミッションには、エネルギー消費の最小化、正確な位置決めの達成、速度の最大化など、様々な目的がある。 異なる目的に適応できるコントローラーは、非常に貴重である。 Proportional Integral Derivative (PID) コントローラは、ドローンやその他の制御システムにおいて最も人気があり広く使われている制御アルゴリズムの1つであるが、その線形制御アルゴリズムは、ダイナミックな風条件や複雑なドローンシステムの非線形特性を捉えていない。 手動で様々なミッションのためにPIDのゲインを調整するのは時間がかかるし、かなりの専門知識を必要とする。 本稿では,PPO (Proximal Policy Optimization) を用いた非線形深層強化学習 (DRL) 強化型PID (Proportional Integral Derivative) ドローン制御系であるAirPilotを提示することにより,ドローンの飛行制御に革命をもたらすことを目的とする。 AirPilotコントローラは、従来のPID制御のシンプルさと有効性と、DRLの適応性、学習能力、最適化能力を組み合わせる。 これにより、環境が動的であり、ミッション固有のパフォーマンス要求が高い現代のドローンアプリケーションに適している。 私たちはシミュレータ内でDRLエージェントを訓練するためにCOEX Clover自律ドローンを使用し、実際の実験室でそれを実装しました。 Airpilotは、デフォルトのPX4 PID位置コントローラのナビゲーションエラーを90%削減し、微調整されたPIDコントローラのナビゲーション速度を21%改善し、それぞれ17%、オーバーシュートを16%削減できる。

Navigation precision, speed and stability are crucial for safe Unmanned Aerial Vehicle (UAV) flight maneuvers and effective flight mission executions in dynamic environments. Different flight missions may have varying objectives, such as minimizing energy consumption, achieving precise positioning, or maximizing speed. A controller that can adapt to different objectives on the fly is highly valuable. Proportional Integral Derivative (PID) controllers are one of the most popular and widely used control algorithms for drones and other control systems, but their linear control algorithm fails to capture the nonlinear nature of the dynamic wind conditions and complex drone system. Manually tuning the PID gains for various missions can be time-consuming and requires significant expertise. This paper aims to revolutionize drone flight control by presenting the AirPilot, a nonlinear Deep Reinforcement Learning (DRL) - enhanced Proportional Integral Derivative (PID) drone controller using Proximal Policy Optimization (PPO). AirPilot controller combines the simplicity and effectiveness of traditional PID control with the adaptability, learning capability, and optimization potential of DRL. This makes it better suited for modern drone applications where the environment is dynamic, and mission-specific performance demands are high. We employed a COEX Clover autonomous drone for training the DRL agent within the simulator and implemented it in a real-world lab setting, which marks a significant milestone as one of the first attempts to apply a DRL-based flight controller on an actual drone. Airpilot is capable of reducing the navigation error of the default PX4 PID position controller by 90%, improving effective navigation speed of a fine-tuned PID controller by 21%, reducing settling time and overshoot by 17% and 16% respectively.
翻訳日:2024-08-26 19:49:07 公開日:2024-08-23
# 大規模言語モデルに基づくインストラクション駆動型ゲームエンジン

Instruction-Driven Game Engines on Large Language Models ( http://arxiv.org/abs/2404.00276v4 )

ライセンス: Link先を確認
Hongqiu Wu, Yan Wang, Xingyuan Liu, Hai Zhao, Min Zhang, (参考訳) Instruction-Driven Game Engine(IDGE)プロジェクトは、大規模言語モデル(LLM)が自由形式のゲームルールに従い、自律的にゲームプレイプロセスを生成できるようにすることで、ゲーム開発を民主化することを目的としている。 IDGEは、ユーザーが単純な自然言語命令を発行することでゲームを作成することができるため、ゲーム開発における障壁は大幅に低下する。 我々は,IDGEの学習過程を次の状態予測タスクとしてアプローチし,ゲーム内状態を自動回帰予測する。 ゲーム内状態の計算が正確でなければならず、さもなくばわずかなエラーでゲームプレイが破壊される可能性があるため、これは難しいタスクである。 これを解決するために、我々は、複雑なシナリオに対するモデルの露出を徐々に増大させるカリキュラム方式でIDGEを訓練する。 私たちの最初の進歩は、汎用的なカードゲームであるPoker用のIDGEを開発することです。 私たちが設計したエンジンは、幅広いポーカー変種をサポートするだけでなく、自然言語入力によるルールの高度なカスタマイズも可能にしています。 さらに、最小限のサンプルから新しいゲームの迅速なプロトタイピングを推奨し、最小限のプロンプトとデータエンジニアリングに依存するゲーム開発における革新的なパラダイムを提案している。 この研究は、命令駆動型ゲーム作成の今後の進歩の基盤となり、ゲームの設計とプレイの仕方を変える可能性がある。

The Instruction-Driven Game Engine (IDGE) project aims to democratize game development by enabling a large language model (LLM) to follow free-form game rules and autonomously generate game-play processes. The IDGE allows users to create games by issuing simple natural language instructions, which significantly lowers the barrier for game development. We approach the learning process for IDGEs as a Next State Prediction task, wherein the model autoregressively predicts in-game states given player actions. It is a challenging task because the computation of in-game states must be precise; otherwise, slight errors could disrupt the game-play. To address this, we train the IDGE in a curriculum manner that progressively increases the model's exposure to complex scenarios. Our initial progress lies in developing an IDGE for Poker, a universally cherished card game. The engine we've designed not only supports a wide range of poker variants but also allows for high customization of rules through natural language inputs. Furthermore, it also favors rapid prototyping of new games from minimal samples, proposing an innovative paradigm in game development that relies on minimal prompt and data engineering. This work lays the groundwork for future advancements in instruction-driven game creation, potentially transforming how games are designed and played.
翻訳日:2024-08-26 19:49:07 公開日:2024-08-23
# 野生における半監督型非拘束型頭部電位推定

Semi-Supervised Unconstrained Head Pose Estimation in the Wild ( http://arxiv.org/abs/2404.02544v2 )

ライセンス: Link先を確認
Huayi Zhou, Fei Jiang, Jin Yuan, Yong Rui, Hongtao Lu, Kui Jia, (参考訳) 既存研究では、非現実的な合成や制約されたコレクションによる多数のサンプルからなり、また、手動による手動による手動による小さな自然画像から成っているデータセットの欠陥に悩まされている。 そこで本研究では,手軽に手軽に手軽に利用できるヘッドポーズ推定手法であるSemiUHPEを提案する。 技術的には、半教師付き回転回帰を選択し、非拘束な頭部ポーズの誤差に敏感でラベルスカースな問題に適応する。 本手法は, 野生の頭部のアスペクト比不変な収穫が, 従来のランドマークに基づくアフィンアライメントよりも優れているという観察に基づいている。 実験的に固定された閾値を用いて擬似ラベル付きヘッドをフィルタリングする代わりに、動的エントロピーに基づくフィルタリングを提案する。 次に,弱張力強化の設計を再考し,それぞれ「ポーズ非関連カット・オクルージョン」と「ポーズ-アタリング・ローテーション・一貫性」と呼ばれる2つの新しい頭部指向強強化を考案して改善する。 大規模な実験とアブレーション研究により、SemiUHPEは、フロントレンジとフルレンジの両方の設定下での公開ベンチマークにおいて、既存の手法を大幅に上回っていることが示されている。 コードは \url{https://github.com/hnuzhy/SemiUHPE} でリリースされる。

Existing research on unconstrained in-the-wild head pose estimation suffers from the flaws of its datasets, which consist of either numerous samples by non-realistic synthesis or constrained collection, or small-scale natural images yet with plausible manual annotations. To alleviate it, we propose the first semi-supervised unconstrained head pose estimation method SemiUHPE, which can leverage abundant easily available unlabeled head images. Technically, we choose semi-supervised rotation regression and adapt it to the error-sensitive and label-scarce problem of unconstrained head pose. Our method is based on the observation that the aspect-ratio invariant cropping of wild heads is superior to the previous landmark-based affine alignment given that landmarks of unconstrained human heads are usually unavailable, especially for less-explored non-frontal heads. Instead of using an empirically fixed threshold to filter out pseudo labeled heads, we propose dynamic entropy based filtering to adaptively remove unlabeled outliers as training progresses by updating the threshold in multiple stages. We then revisit the design of weak-strong augmentations and improve it by devising two novel head-oriented strong augmentations, termed pose-irrelevant cut-occlusion and pose-altering rotation consistency respectively. Extensive experiments and ablation studies show that SemiUHPE outperforms existing methods greatly on public benchmarks under both the front-range and full-range settings. Code is released in \url{https://github.com/hnuzhy/SemiUHPE}.
翻訳日:2024-08-26 19:37:13 公開日:2024-08-23
# 局所光シフトを用いたRydberg原子アレイ上の重み付きグラフ最適化の実証

Demonstration of weighted graph optimization on a Rydberg atom array using local light-shifts ( http://arxiv.org/abs/2404.02658v2 )

ライセンス: Link先を確認
A. G. de Oliveira, E. Diamond-Hitchcock, D. M. Walker, M. T. Wells-Pestell, G. Pelegrí, C. J. Picken, G. P. A. Malcolm, A. J. Daley, J. Bass, J. D. Pritchard, (参考訳) 中性原子配列は、スケーラブルな量子計算と最適化のための汎用的なプラットフォームとして登場した。 本稿では,局所光シフトを用いたアニールを用いたRydberg原子配列上での重み付きグラフ最適化の最初の実演を示す。 我々は,9つの物理量子ビットを用いた5頂点非単位円板グラフの埋め込みや,単純な交差ガジェットのデモンストレーションなど,重み付きグラフを1Dおよび2Dアレイで作成する能力を検証する。 種々のグラフ重み付けに対して, ターゲット基底状態の調製に寄与する一般的な焼鈍ランプを見出した。 この研究は、関連する現実世界の問題を解決するために、非平面重み付きグラフを大規模に最適化する方法を提供する。

Neutral atom arrays have emerged as a versatile platform towards scalable quantum computation and optimization. In this paper we present first demonstrations of weighted graph optimization on a Rydberg atom array using annealing with local light-shifts. We verify the ability to prepare weighted graphs in 1D and 2D arrays, including embedding a five vertex non-unit disk graph using nine physical qubits and demonstration of a simple crossing gadget. We find common annealing ramps leading to preparation of the target ground state robustly over a substantial range of different graph weightings. This work provides a route to exploring large-scale optimization of non-planar weighted graphs relevant for solving relevant real-world problems.
翻訳日:2024-08-26 19:37:13 公開日:2024-08-23
# PreAfford: 分散オブジェクトと環境のためのユニバーサルアクダクタンスベースのプレグラッピング

PreAfford: Universal Affordance-Based Pre-Grasping for Diverse Objects and Environments ( http://arxiv.org/abs/2404.03634v3 )

ライセンス: Link先を確認
Kairui Ding, Boyuan Chen, Ruihai Wu, Yuyang Li, Zongzheng Zhang, Huan-ang Gao, Siqi Li, Guyue Zhou, Yixin Zhu, Hao Dong, Hao Zhao, (参考訳) 二本指グリップによるロボット操作は、異なる把握可能な特徴を欠いた物体によって困難である。 通常、オブジェクトの再配置やテーブルエッジのような外部のエイズを利用する従来のプレグラス法は、異なるオブジェクトカテゴリや環境にまたがる適応性に制限されている。 このような制約を克服するために,ポイントレベルのアベイランス表現とリレートレーニングアプローチを取り入れた,新しいプレグラッピング計画フレームワークであるPreAffordを導入する。 提案手法は適応性を大幅に向上し,多様な環境やオブジェクトタイプを効果的に操作できる。 ShapeNet-v2データセットで評価すると、PreAffordは成功率を69%向上するだけでなく、実世界の実験の成功を通じてその実用性を実証する。 これらの改善は、様々な環境で複雑な操作タスクのロボット処理の標準を再定義するPreAffordの可能性を強調している。

Robotic manipulation with two-finger grippers is challenged by objects lacking distinct graspable features. Traditional pre-grasping methods, which typically involve repositioning objects or utilizing external aids like table edges, are limited in their adaptability across different object categories and environments. To overcome these limitations, we introduce PreAfford, a novel pre-grasping planning framework incorporating a point-level affordance representation and a relay training approach. Our method significantly improves adaptability, allowing effective manipulation across a wide range of environments and object types. When evaluated on the ShapeNet-v2 dataset, PreAfford not only enhances grasping success rates by 69% but also demonstrates its practicality through successful real-world experiments. These improvements highlight PreAfford's potential to redefine standards for robotic handling of complex manipulation tasks in diverse settings.
翻訳日:2024-08-26 19:37:13 公開日:2024-08-23
# 曖昧な医用画像分割のためのマルチレータプロンプト

Multi-rater Prompting for Ambiguous Medical Image Segmentation ( http://arxiv.org/abs/2404.07580v2 )

ライセンス: Link先を確認
Jinhong Wang, Yi Cheng, Jintai Chen, Hongxia Xu, Danny Chen, Jian Wu, (参考訳) マルチラターアノテーションは、医療画像が複数の専門家(レーダ)によって独立して注釈付けされるときに一般的に発生する。 本稿では,医療画像セグメンテーションのためのマルチラターアノテーション(曖昧な医用画像セグメンテーション)において生じる2つの課題に対処する:(1)ラガーの集団が多種多様なプラウティブルアノテーションを作成した場合の深層学習モデルの訓練方法、(2)計算資源が異なるデータセット領域でモデル全体を再トレーニングできない場合のモデル修正を効果的に行う方法。 本稿では,これら2つの課題を完全に解決するためのマルチラッタープロンプトベースのアプローチを提案する。 具体的には,複数アノテーションのケースを扱うための不確実性推定のために,U-Netモデルに接続可能なレーダ対応プロンプトをいくつか導入する。 プロンプトベースの微調整プロセスでは、モデル全体のトレーニングと比較すると、学習可能なパラメータのわずか0.3%が更新される必要がある。 さらに、専門家のコンセンサスと意見の不一致を統合するために、様々なマルチレータ構成戦略を探求し、総合的な洞察学習のための混合学習戦略を設計する。 モデル再訓練の重荷を軽減しつつ、2つの公開データセット上でのあいまいな医用画像分割のための新しいアプローチの有効性を検証する。

Multi-rater annotations commonly occur when medical images are independently annotated by multiple experts (raters). In this paper, we tackle two challenges arisen in multi-rater annotations for medical image segmentation (called ambiguous medical image segmentation): (1) How to train a deep learning model when a group of raters produces a set of diverse but plausible annotations, and (2) how to fine-tune the model efficiently when computation resources are not available for re-training the entire model on a different dataset domain. We propose a multi-rater prompt-based approach to address these two challenges altogether. Specifically, we introduce a series of rater-aware prompts that can be plugged into the U-Net model for uncertainty estimation to handle multi-annotation cases. During the prompt-based fine-tuning process, only 0.3% of learnable parameters are required to be updated comparing to training the entire model. Further, in order to integrate expert consensus and disagreement, we explore different multi-rater incorporation strategies and design a mix-training strategy for comprehensive insight learning. Extensive experiments verify the effectiveness of our new approach for ambiguous medical image segmentation on two public datasets while alleviating the heavy burden of model re-training.
翻訳日:2024-08-26 19:37:13 公開日:2024-08-23
# DesignQA: 大規模言語モデルのエンジニアリング文書化理解のためのマルチモーダルベンチマーク

DesignQA: A Multimodal Benchmark for Evaluating Large Language Models' Understanding of Engineering Documentation ( http://arxiv.org/abs/2404.07917v2 )

ライセンス: Link先を確認
Anna C. Doris, Daniele Grandi, Ryan Tomich, Md Ferdous Alam, Mohammadmehdi Ataei, Hyunmin Cheong, Faez Ahmed, (参考訳) 本研究は,多モーダル大規模言語モデル(MLLM)の熟練度を評価するための新しいベンチマークであるDesignQAを紹介する。 実世界のエンジニアリング課題に焦点をあてて開発されたDesignQAは、フォーミュラSAE学生コンペティションから派生したマルチモーダルデータを含むテキストデザイン要件、CADイメージ、エンジニアリング図面を独自に組み合わせている。 多くの既存のMLLMベンチマークとは異なり、DesignQAには、入力画像と入力文書が異なるソースからどこから来るかという、文書による視覚的な疑問が含まれている。 このベンチマークでは、自動評価メトリクスが特徴で、要求に従って設計する際にエンジニアが実行するタスクに基づいて、セグメントルール理解、ルールコンプライアンス、ルール抽出に分けられる。 我々は,GPT-4o,GPT-4,Claude-Opus,Gemini-1.0,LLaVA-1.5といった最先端のモデルをベンチマークで評価し,複雑なエンジニアリング資料を解釈するMLLMの既存のギャップを明らかにする。 MLLMは有望ながら、フォーミュラSAEの文書から関連ルールを確実に取り出すのに苦労し、CAD画像の技術的コンポーネントを認識するのに困難に直面し、エンジニアリング図面の分析に困難に直面した。 これらの知見は、設計に特徴的な多面的質問をよりうまく扱えるマルチモーダルモデルの必要性を技術的文書で示している。 このベンチマークは、AIをサポートするエンジニアリング設計プロセスの今後の進歩の基盤となる。 DesignQAは、https://github.com/anniedoris/design_qa/.comで公開されている。

This research introduces DesignQA, a novel benchmark aimed at evaluating the proficiency of multimodal large language models (MLLMs) in comprehending and applying engineering requirements in technical documentation. Developed with a focus on real-world engineering challenges, DesignQA uniquely combines multimodal data-including textual design requirements, CAD images, and engineering drawings-derived from the Formula SAE student competition. Different from many existing MLLM benchmarks, DesignQA contains document-grounded visual questions where the input image and input document come from different sources. The benchmark features automatic evaluation metrics and is divided into segments-Rule Comprehension, Rule Compliance, and Rule Extraction-based on tasks that engineers perform when designing according to requirements. We evaluate state-of-the-art models (at the time of writing) like GPT-4o, GPT-4, Claude-Opus, Gemini-1.0, and LLaVA-1.5 against the benchmark, and our study uncovers the existing gaps in MLLMs' abilities to interpret complex engineering documentation. The MLLMs tested, while promising, struggle to reliably retrieve relevant rules from the Formula SAE documentation, face challenges in recognizing technical components in CAD images, and encounter difficulty in analyzing engineering drawings. These findings underscore the need for multimodal models that can better handle the multifaceted questions characteristic of design according to technical documentation. This benchmark sets a foundation for future advancements in AI-supported engineering design processes. DesignQA is publicly available at: https://github.com/anniedoris/design_qa/.
翻訳日:2024-08-26 19:37:13 公開日:2024-08-23
# 大規模言語モデルのための検索用テキスト生成法の検討

A Survey on Retrieval-Augmented Text Generation for Large Language Models ( http://arxiv.org/abs/2404.10981v2 )

ライセンス: Link先を確認
Yizheng Huang, Jimmy Huang, (参考訳) Retrieval-Augmented Generation (RAG)は、検索手法をディープラーニングとマージして、大規模言語モデル(LLM)の静的制限に対処し、最新の外部情報の動的統合を可能にする。 この手法は、主にテキスト領域に焦点をあてて、LCMによる妥当な応答の生成に対してコスト効率のよいソリューションを提供し、現実世界のデータを用いて出力の精度と信頼性を高める。 本稿では,RAGのパラダイムを,検索前,検索後,検索後,生成の4つのカテゴリに分類し,検索の観点から詳細な視点を提供する。 RAGの進化を概説し、重要な研究の分析を通して分野の進歩について論じている。 さらに,RAGの評価手法についても紹介し,今後の研究課題に対処し,今後の研究方向性を提案する。 組織的な枠組みと分類を提供することにより、RAGに関する既存の研究を統合し、その技術基盤を明確にし、LLMの適応性と応用を広げる可能性を明らかにすることを目的としている。

Retrieval-Augmented Generation (RAG) merges retrieval methods with deep learning advancements to address the static limitations of large language models (LLMs) by enabling the dynamic integration of up-to-date external information. This methodology, focusing primarily on the text domain, provides a cost-effective solution to the generation of plausible but possibly incorrect responses by LLMs, thereby enhancing the accuracy and reliability of their outputs through the use of real-world data. As RAG grows in complexity and incorporates multiple concepts that can influence its performance, this paper organizes the RAG paradigm into four categories: pre-retrieval, retrieval, post-retrieval, and generation, offering a detailed perspective from the retrieval viewpoint. It outlines RAG's evolution and discusses the field's progression through the analysis of significant studies. Additionally, the paper introduces evaluation methods for RAG, addressing the challenges faced and proposing future research directions. By offering an organized framework and categorization, the study aims to consolidate existing research on RAG, clarify its technological underpinnings, and highlight its potential to broaden the adaptability and applications of LLMs.
翻訳日:2024-08-26 19:37:13 公開日:2024-08-23
# 視覚参照表現生成におけるシーンコンテキストによるレジリエンス

Resilience through Scene Context in Visual Referring Expression Generation ( http://arxiv.org/abs/2404.12289v2 )

ライセンス: Link先を確認
Simeon Junker, Sina Zarrieß, (参考訳) シーンコンテキストは、人間が目に見える物体に対する知覚を促進するためによく知られている。 本稿では,画像中のオブジェクトに対する参照表現生成(REG)におけるコンテキストの役割について検討する。 我々は、REGにおけるシーンコンテキストを新たな視点で捉え、REGモデルをよりレジリエンスにし、特にオブジェクト記述やオブジェクトタイプの生成を容易にするリソースとして、コンテキスト情報が考えられることを仮定する。 我々は,様々な程度にノイズで人工的に隠蔽されたターゲット表現を用いたTransformer-based REGモデルを訓練し,試験する。 モデルの視覚的コンテキストの特性が,その処理や性能に与える影響を評価する。 以上の結果から,単純なシーンコンテキストであっても,ターゲットの視覚情報が完全に欠落している場合でも,モデルが参照型を識別できる程度に,摂動に驚くほど耐性があることが示唆された。

Scene context is well known to facilitate humans' perception of visible objects. In this paper, we investigate the role of context in Referring Expression Generation (REG) for objects in images, where existing research has often focused on distractor contexts that exert pressure on the generator. We take a new perspective on scene context in REG and hypothesize that contextual information can be conceived of as a resource that makes REG models more resilient and facilitates the generation of object descriptions, and object types in particular. We train and test Transformer-based REG models with target representations that have been artificially obscured with noise to varying degrees. We evaluate how properties of the models' visual context affect their processing and performance. Our results show that even simple scene contexts make models surprisingly resilient to perturbations, to the extent that they can identify referent types even when visual information about the target is completely missing.
翻訳日:2024-08-26 19:37:13 公開日:2024-08-23
# OMEGAS:ガウスセグメンテーションでガイドされた大規模シーンからのオブジェクトメッシュ抽出

OMEGAS: Object Mesh Extraction from Large Scenes Guided by Gaussian Segmentation ( http://arxiv.org/abs/2404.15891v3 )

ライセンス: Link先を確認
Lizhi Wang, Feng Zhou, Bo yu, Pu Cao, Jianqin Yin, (参考訳) 近年の3D再構成技術は,複雑な3Dシーンの高品質かつリアルタイムレンダリングの道を開いた。 これらの成果にもかかわらず、注目すべき課題は、大きなシーンから特定のオブジェクトを正確に再構築することは困難である。 現在のシーン再構築技術は、しばしばオブジェクト詳細テクスチャが失われ、ビューに隠されたり、見えないオブジェクト部分の再構築ができない。 この課題に対処するために,我々は,ガウスセグメンテーションでガイドされた大規模シーンからのオブジェクトメッシュ抽出という,大規模シーン内の特定のオブジェクトの精密な3次元再構成を探索し,OMEGASというフレームワークを提案する。 具体的には,多視点シーン画像中の3次元一貫したターゲットマスクを分割し,予備的ターゲットモデルを生成する,2次元ガウス分割に基づく新しい3次元ターゲットセグメンテーション手法を提案する。 さらに, ターゲットの未確認部分を再構築するために, 大規模生成拡散により誘導される新たな目標補充手法を提案する。 本研究では,大規模シーンから,定量的かつ定性的に,特定のターゲットを正確に再構築できることを実証する。 本実験により, OMEGASは, 様々なシナリオにおいて, 既存の再建方法よりも有意に優れていることがわかった。 私たちのプロジェクトページは以下の通りです。

Recent advancements in 3D reconstruction technologies have paved the way for high-quality and real-time rendering of complex 3D scenes. Despite these achievements, a notable challenge persists: it is difficult to precisely reconstruct specific objects from large scenes. Current scene reconstruction techniques frequently result in the loss of object detail textures and are unable to reconstruct object portions that are occluded or unseen in views. To address this challenge, we delve into the meticulous 3D reconstruction of specific objects within large scenes and propose a framework termed OMEGAS: Object Mesh Extraction from Large Scenes Guided by Gaussian Segmentation. Specifically, we proposed a novel 3D target segmentation technique based on 2D Gaussian Splatting, which segments 3D consistent target masks in multi-view scene images and generates a preliminary target model. Moreover, to reconstruct the unseen portions of the target, we propose a novel target replenishment technique driven by large-scale generative diffusion priors. We demonstrate that our method can accurately reconstruct specific targets from large scenes, both quantitatively and qualitatively. Our experiments show that OMEGAS significantly outperforms existing reconstruction methods across various scenarios. Our project page is at: https://github.com/CrystalWlz/OMEGAS
翻訳日:2024-08-26 19:37:13 公開日:2024-08-23
# J_1$-$J_2$鎖の臨界理論と積分した行列積状態経路からの一般化されたハルデン写像

A Generalised Haldane Map from the Matrix Product State Path Integral to the Critical Theory of the $J_1$-$J_2$ Chain ( http://arxiv.org/abs/2404.16088v2 )

ライセンス: Link先を確認
F. Azad, Adam J. McRoberts, Chris Hooley, A. G. Green, (参考訳) 行列積状態 (MPS) 上に構築された経路積分を用いて, J_1$-$J_2$ spin-$1/2$ 鎖について検討した。 非自明な絡み合い構造により、MPSアンザッツは半古典的、サドル点レベルでもモデルの鍵位相を捉え、変分状態として、アーベルボゾン化によって得られる場の理論とよく一致する。 半古典的なレベルを超えて、MPSアンザッツは臨界相の場理論の物理的動機付けによる導出を促進することを示し、連続極限(ハルデン写像の一般化)を慎重に取り込むことで、MPSパスから正しい位相項を持つ場理論と創発的な$SO(4)$対称性を積分し、顕微鏡状態と位相場理論構造を包含する。 さらに、二量体遷移は、特にMPSの定式化において明らかであり、明示的な二量体ポテンシャルが関連し、磁気的ゆらぎを逸脱する。

We study the $J_1$-$J_2$ spin-$1/2$ chain using a path integral constructed over matrix product states (MPS). By virtue of its non-trivial entanglement structure, the MPS ansatz captures the key phases of the model even at a semi-classical, saddle-point level, and, as a variational state, is in good agreement with the field theory obtained by abelian bosonisation. Going beyond the semi-classical level, we show that the MPS ansatz facilitates a physically-motivated derivation of the field theory of the critical phase: by carefully taking the continuum limit -- a generalisation of the Haldane map -- we recover from the MPS path integral a field theory with the correct topological term and emergent $SO(4)$ symmetry, constructively linking the microscopic states and topological field-theoretic structures. Moreover, the dimerisation transition is particularly clear in the MPS formulation -- an explicit dimerisation potential becomes relevant, gapping out the magnetic fluctuations.
翻訳日:2024-08-26 19:37:13 公開日:2024-08-23
# 単純かつ複雑な感染からネットワークを再構築する

Reconstructing networks from simple and complex contagions ( http://arxiv.org/abs/2405.00129v2 )

ライセンス: Link先を確認
Nicholas W. Landry, William Thompson, Laurent Hébert-Dufresne, Jean-Gabriel Young, (参考訳) ネットワーク科学者はネットワークの感染を記述するために複雑な動的プロセスを使うことが多いが、感染モデルに適合するツールは通常、単純なダイナミクスを前提としている。 そこで本研究では,ネットワークと動的を一連のノード状態から再構築する非パラメトリック手法を開発し,単純なペアワイドと複雑な近傍型感染の分岐を断ち切るモデルを用いて,このギャップに対処する。 次に, ネットワークは, 密度や動的飽和度が高い場合, 複雑な感染レンズを通して観測すると, より容易に再構築できることを示す。

Network scientists often use complex dynamic processes to describe network contagions, but tools for fitting contagion models typically assume simple dynamics. Here, we address this gap by developing a nonparametric method to reconstruct a network and dynamics from a series of node states, using a model that breaks the dichotomy between simple pairwise and complex neighborhood-based contagions. We then show that a network is more easily reconstructed when observed through the lens of complex contagions if it is dense or the dynamic saturates, and that simple contagions are better otherwise.
翻訳日:2024-08-26 19:37:13 公開日:2024-08-23
# iMTSP: インペラティブ学習による最小限のマルチトラベリングセールスマン問題の解決

iMTSP: Solving Min-Max Multiple Traveling Salesman Problem with Imperative Learning ( http://arxiv.org/abs/2405.00285v4 )

ライセンス: Link先を確認
Yifan Guo, Zhongqiang Ren, Chen Wang, (参考訳) 本稿では,各エージェントが各都市を総括して訪問し,最長ツアーの長さを最小化することを目的とした,MTSP(Min-Max Multiple Traveling Salesman Problem)について考察する。 MTSPは広く研究されているが、NP硬度のため、大規模問題に対する準最適解を得ることは依然として困難である。 データ駆動手法の最近の取り組みは、厳密な監督の必要性と勾配推定のばらつきに直面する問題に直面する。 本稿では,インペラティブラーニング(IL)の概念を用いて,MTSPを二段階最適化問題として再定義することでこの問題に対処する。 これには、MTSPを複数の単一エージェントの旅行セールスマン問題(TSP)に分解するアロケーションネットワークの導入が含まれる。 これらのTSPソリューションからの最長のツアーは、アロケーションネットワークを自己監督するために使用され、その結果、新しい自己監督型、双方向のエンドツーエンド学習フレームワークが生まれ、これは命令型MTSP(iMTSP)と呼ばれる。 また、最適化中の高分散勾配問題に対処するために、制御変数に基づく勾配推定アルゴリズムを導入する。 以上の結果から,Google OR-Tools MTSPソルバと比較して,勾配推定器が高度強化学習ベースラインよりも20%高速に収束し,ツアー長が最大80%短いことが示唆された。

This paper considers a Min-Max Multiple Traveling Salesman Problem (MTSP), where the goal is to find a set of tours, one for each agent, to collectively visit all the cities while minimizing the length of the longest tour. Though MTSP has been widely studied, obtaining near-optimal solutions for large-scale problems is still challenging due to its NP-hardness. Recent efforts in data-driven methods face challenges of the need for hard-to-obtain supervision and issues with high variance in gradient estimations, leading to slow convergence and highly suboptimal solutions. We address these issues by reformulating MTSP as a bilevel optimization problem, using the concept of imperative learning (IL). This involves introducing an allocation network that decomposes the MTSP into multiple single-agent traveling salesman problems (TSPs). The longest tour from these TSP solutions is then used to self-supervise the allocation network, resulting in a new self-supervised, bilevel, end-to-end learning framework, which we refer to as imperative MTSP (iMTSP). Additionally, to tackle the high-variance gradient issues during the optimization, we introduce a control variate-based gradient estimation algorithm. Our experiments showed that these innovative designs enable our gradient estimator to converge 20% faster than the advanced reinforcement learning baseline and find up to 80% shorter tour length compared with Google OR-Tools MTSP solver, especially in large-scale problems (e.g. 1000 cities and 15 agents).
翻訳日:2024-08-26 19:37:13 公開日:2024-08-23
# 探索仮定を伴わない離散線形MDPにおける模倣学習

Imitation Learning in Discounted Linear MDPs without exploration assumptions ( http://arxiv.org/abs/2405.02181v2 )

ライセンス: Link先を確認
Luca Viano, Stratis Skoulakis, Volkan Cevher, (参考訳) ILARLと呼ばれる無限水平線形MDPにおける模倣学習のための新しいアルゴリズムを提案し,学習者が環境からサンプリングするトラジェクトリの数に大きく依存することを示す。 特に、以前の研究で必要とされる探索仮定を除去し、所望の精度$\epsilon$から$\mathcal{O}(\epsilon^{-5})$から$\mathcal{O}(\epsilon^{-4})$への依存を改善する。 本研究の結果は,MDPにおける模倣学習とオンライン学習の関連性に依拠している。 後者の設定では、独立な興味を持つかもしれない無限水平線型 MDP に対する最初の結果を示す。 さらに、有限地平線の場合、$\mathcal{O}(\epsilon^{-2})$を達成できるような強い結果が得られる。 線形関数近似による数値実験により、ILARLは他のよく使われるアルゴリズムよりも優れていることが示された。

We present a new algorithm for imitation learning in infinite horizon linear MDPs dubbed ILARL which greatly improves the bound on the number of trajectories that the learner needs to sample from the environment. In particular, we remove exploration assumptions required in previous works and we improve the dependence on the desired accuracy $\epsilon$ from $\mathcal{O}(\epsilon^{-5})$ to $\mathcal{O}(\epsilon^{-4})$. Our result relies on a connection between imitation learning and online learning in MDPs with adversarial losses. For the latter setting, we present the first result for infinite horizon linear MDP which may be of independent interest. Moreover, we are able to provide a strengthen result for the finite horizon case where we achieve $\mathcal{O}(\epsilon^{-2})$. Numerical experiments with linear function approximation shows that ILARL outperforms other commonly used algorithms.
翻訳日:2024-08-26 19:37:13 公開日:2024-08-23
# EWMoE: 専門知識の混合による地球規模の天気予報に有効なモデル

EWMoE: An effective model for global weather forecasting with mixture-of-experts ( http://arxiv.org/abs/2405.06004v2 )

ライセンス: Link先を確認
Lihao Gan, Xin Man, Chenghong Zhang, Jie Shao, (参考訳) 気象予報は気象学研究にとって重要な課題であり、直接的な社会的・経済的影響がある。 近年,ディープラーニングに基づくデータ駆動型天気予報モデルに大きな可能性を示し,従来の数値天気予報法と比較して優れた性能を示した。 しかし、これらのモデルは大規模なトレーニングデータと計算資源を必要とすることが多い。 本稿では,正確な気象予報を行うための効果的なモデルであるEWMoEを提案する。 本モデルは,3次元絶対位置埋め込み,Mixture-of-Experts(MoE)層,および2つの特定の損失関数の3つの重要な要素を組み込んで予測精度を向上させる。 2年間のトレーニングデータを用いて,ERA5データセットの評価を行った。 EWMoEは、Anomaly correlation Coefficient(ACC)やRoot Mean Square Error(RMSE)といった評価指標において、最先端のPangu-WeatherやGraphCastと比較して、常に予測時にFourCastNetやClimaXのような現在のモデルよりも優れており、競争性能が向上している。 さらに,気象予報へのMoEアーキテクチャの適用は,精度と資源効率を向上させる上で大きな利点をもたらすことが示唆された。 コードはhttps://github.com/Tomoyi/EWMoE.comで入手できる。

Weather forecasting is a crucial task for meteorologic research, with direct social and economic impacts. Recently, data-driven weather forecasting models based on deep learning have shown great potential, achieving superior performance compared with traditional numerical weather prediction methods. However, these models often require massive training data and computational resources. In this paper, we propose EWMoE, an effective model for accurate global weather forecasting, which requires significantly less training data and computational resources. Our model incorporates three key components to enhance prediction accuracy: 3D absolute position embedding, a core Mixture-of-Experts (MoE) layer, and two specific loss functions. We conduct our evaluation on the ERA5 dataset using only two years of training data. Extensive experiments demonstrate that EWMoE outperforms current models such as FourCastNet and ClimaX at all forecast time, achieving competitive performance compared with the state-of-the-art models Pangu-Weather and GraphCast in evaluation metrics such as Anomaly Correlation Coefficient (ACC) and Root Mean Square Error (RMSE). Additionally, ablation studies indicate that applying the MoE architecture to weather forecasting offers significant advantages in improving accuracy and resource efficiency. Code is available at https://github.com/Tomoyi/EWMoE.
翻訳日:2024-08-26 19:37:13 公開日:2024-08-23
# MAML MOT:メタラーニングに基づく複数物体追跡

MAML MOT: Multiple Object Tracking based on Meta-Learning ( http://arxiv.org/abs/2405.07272v3 )

ライセンス: Link先を確認
Jiayi Chen, Chunhua Deng, (参考訳) 映像解析技術の進歩に伴い、歩行者を含む複雑な場面における多目的追跡(MOT)問題の重要性が高まっている。 この課題は主に、歩行者検出と再識別という2つの重要なタスクを含む。 近年,歩行者検出タスクにおいて顕著な進歩がみられてきたが,再識別タスクの有効性の向上は引き続き課題である。 この困難は、多目的追跡データセットにおける多数の歩行者サンプルと、個々のサンプルの不足から生じる。 近年,メタ学習技術の急速な進歩により,メタ学習に基づくマルチオブジェクト追跡のトレーニング手法であるMAML MOTを導入する。 このアプローチは,メタラーニングの迅速な学習能力を活用して,歩行者再識別作業におけるサンプル不足問題に対処し,モデルの一般化性能と堅牢性を向上させることを目的とする。 実験の結果,提案手法はMOTチャレンジの主流データセットに対して高い精度を実現することが示された。 これは、歩行者多目的追跡の分野の研究のための新しい視点と解決策を提供する。

With the advancement of video analysis technology, the multi-object tracking (MOT) problem in complex scenes involving pedestrians is gaining increasing importance. This challenge primarily involves two key tasks: pedestrian detection and re-identification. While significant progress has been achieved in pedestrian detection tasks in recent years, enhancing the effectiveness of re-identification tasks remains a persistent challenge. This difficulty arises from the large total number of pedestrian samples in multi-object tracking datasets and the scarcity of individual instance samples. Motivated by recent rapid advancements in meta-learning techniques, we introduce MAML MOT, a meta-learning-based training approach for multi-object tracking. This approach leverages the rapid learning capability of meta-learning to tackle the issue of sample scarcity in pedestrian re-identification tasks, aiming to improve the model's generalization performance and robustness. Experimental results demonstrate that the proposed method achieves high accuracy on mainstream datasets in the MOT Challenge. This offers new perspectives and solutions for research in the field of pedestrian multi-object tracking.
翻訳日:2024-08-26 19:37:13 公開日:2024-08-23
# サブサンプリングモーメント回帰に対する一様推論

Uniform Inference for Subsampled Moment Regression ( http://arxiv.org/abs/2405.07860v2 )

ライセンス: Link先を確認
David M. Ritzwoller, Vasilis Syrgkanis, (参考訳) 本研究では,条件付きモーメント方程式に対する解に対する同時信頼区間を構築する手法を提案する。 間隔は、サブサンプリングされたカーネルに基づいた非パラメトリック回帰アルゴリズムのクラスを中心に構築される。 このクラスは、一般的なランダム森林(Athey et al , 2019)を含む、様々な種類の無作為な森林回帰を包含している。 例えば、不均一な治療効果のきめ細かいキャラクタリゼーションでは、ポイントワイド保証を優先する信頼区間のみを以前は利用できた。 私たちの仕事はこのギャップを埋める。 副生成物として,高次元U-統計量の濃度と正規近似に関する新しい順序抽出結果が得られた。

We propose a method for constructing simultaneous confidence intervals for solutions to conditional moment equations. The intervals are built around a class of nonparametric regression algorithms based on subsampled kernels. This class encompasses various forms of subsampled random forest regression, including Generalized Random Forests (Athey et al., 2019). Although simultaneous validity is often necessary in leading empirical applications--for example, in fine-grained characterization of heterogeneous treatment effects--only confidence intervals that confer pointwise guarantees were previously available. Our work closes this gap. As a by-product, we obtain several new order-explicit results on the concentration and normal approximation of high-dimensional U-statistics.
翻訳日:2024-08-26 19:37:13 公開日:2024-08-23
# 量子推定のためのベイズ対数微分型下界

Bayesian Logarithmic Derivative Type Lower Bounds for Quantum Estimation ( http://arxiv.org/abs/2405.10525v2 )

ライセンス: Link先を確認
Jianchao Zhang, Jun Suzuki, (参考訳) 量子パラメータ推定に対するベイズ的アプローチは、量子推定理論の実践的応用から新たな関心を集めている。 近年、量子領域におけるベイズリスクに対するベイズ・ナガオカ・ハヤシ境界(Bayesian Nagaoka-Hayashi bound)と呼ばれる下界が提案され、これはコンロンらによる量子状態の点推定への新たなアプローチの拡張である(2021年)。 本研究の目的は,このベイズ長岡-早橋境界を下限から探究することである。 まず、点推定におけるホレヴォ境界の類似である下界の1パラメータ族を得る。 これにより、パラメータ独立重み行列設定のための閉形式でベイズ対数微分型下界の1パラメータ族を導出する。 この新たな境界は、特別の場合として、以前に知られていたベイズ的下界を含む。

Bayesian approach for quantum parameter estimation has gained a renewed interest from practical applications of quantum estimation theory. Recently, a lower bound, called the Bayesian Nagaoka-Hayashi bound for the Bayes risk in quantum domain was proposed, which is an extension of a new approach to point estimation of quantum states by Conlon et al. (2021). The objective of this paper is to explore this Bayesian Nagaoka-Hayashi bound further by obtaining its lower bounds. We first obtain one-parameter family of lower bounds, which is an analogue of the Holevo bound in point estimation. Thereby, we derive one-parameter family of Bayesian logarithmic derivative type lower bounds in a closed form for the parameter independent weight matrix setting. This new bound includes previously known Bayesian lower bounds as special cases.
翻訳日:2024-08-26 19:27:29 公開日:2024-08-23
# ベクトルネットワークのための二重動的ISACプリコーディング:制約付き深部強化学習(CDRL)アプローチ

Doubly-Dynamic ISAC Precoding for Vehicular Networks: A Constrained Deep Reinforcement Learning (CDRL) Approach ( http://arxiv.org/abs/2405.14347v3 )

ライセンス: Link先を確認
Zonghui Yang, Shijian Gao, Xiang Cheng, (参考訳) 車両ネットワークを支えるためにはISAC技術が不可欠である。 しかし、このシナリオの通信チャネルは時間変化を示し、潜在的なターゲットは急速に移動し、二重ダイナミクスをもたらす可能性がある。 この性質は、リアルタイムプリコーダ設計に挑戦する。 最適化ベースのソリューションは広く研究されているが、それらは複雑であり、完全なチャネル関連情報に大きく依存している。 この課題に対処するため,ISACプリコーダの動的更新を容易にするため,制約付き強化学習を提案する。 さらに、アルゴリズムを複雑な制約下で効率的に訓練し、様々な数のユーザを訓練するために、原始的なデュアルディープ決定論的ポリシー勾配とWolpertingerアーキテクチャが調整されている。 提案手法は, 観測に基づく力学に適応するだけでなく, 環境情報を活用し, 性能の向上と複雑性の低減を図る。 既存の候補よりも優れていることが実験によって検証されている。

Integrated sensing and communication (ISAC) technology is essential for supporting vehicular networks. However, the communication channel in this scenario exhibits time variations, and the potential targets may move rapidly, resulting in double dynamics. This nature poses a challenge for real-time precoder design. While optimization-based solutions are widely researched, they are complex and heavily rely on perfect channel-related information, which is impractical in double dynamics. To address this challenge, we propose using constrained deep reinforcement learning to facilitate dynamic updates to the ISAC precoder. Additionally, the primal dual-deep deterministic policy gradient and Wolpertinger architecture are tailored to efficiently train the algorithm under complex constraints and varying numbers of users. The proposed scheme not only adapts to the dynamics based on observations but also leverages environmental information to enhance performance and reduce complexity. Its superiority over existing candidates has been validated through experiments.
翻訳日:2024-08-26 19:27:29 公開日:2024-08-23
# Pseudo Channel: モーターイメージデコードのための時間埋め込み

Pseudo Channel: Time Embedding for Motor Imagery Decoding ( http://arxiv.org/abs/2405.15812v2 )

ライセンス: Link先を確認
Zhengqing Miao, Meirong Zhao, (参考訳) 運動画像(MI)に基づく脳波は、外部デバイスを直接神経制御し、神経リハビリテーションを進めるためのフロンティアである。 本研究では、様々なニューラルネットワークアーキテクチャにおけるMI-EEG信号の復号精度を高めるために擬似チャネルとして使用される、旅行波ベースの時間埋め込みと呼ばれる新しい時間埋め込み手法を提案する。 個人差におけるMI-EEGの時間的ダイナミクスを考慮できない従来のニューラルネットワーク手法とは異なり、我々のアプローチは、事前知識に基づいて、異なる参加者に対する時間的変化をキャプチャする。 複数の参加者による広範囲な実験を通して、この手法は分類精度を向上するだけでなく、トランスフォーマーアーキテクチャで使われる位置符号化と比較して、個人差への適応性も向上することを示した。 特に「EEGリテラシー」とみなす参加者に対しては,旅行波をベースとした時間埋め込みがデコード精度を著しく向上させることが明らかとなった。 脳波研究の新たな方向性として、旅行波ベースの時間埋め込みは、ニューラルネットワーク復号戦略に対する新たな洞察を提供するだけでなく、神経科学における注意機構の研究や脳波信号のより深い理解のための新たな道筋も広げている。

Motor imagery (MI) based EEG represents a frontier in enabling direct neural control of external devices and advancing neural rehabilitation. This study introduces a novel time embedding technique, termed traveling-wave based time embedding, utilized as a pseudo channel to enhance the decoding accuracy of MI-EEG signals across various neural network architectures. Unlike traditional neural network methods that fail to account for the temporal dynamics in MI-EEG in individual difference, our approach captures time-related changes for different participants based on a priori knowledge. Through extensive experimentation with multiple participants, we demonstrate that this method not only improves classification accuracy but also exhibits greater adaptability to individual differences compared to position encoding used in Transformer architecture. Significantly, our results reveal that traveling-wave based time embedding crucially enhances decoding accuracy, particularly for participants typically considered "EEG-illiteracy". As a novel direction in EEG research, the traveling-wave based time embedding not only offers fresh insights for neural network decoding strategies but also expands new avenues for research into attention mechanisms in neuroscience and a deeper understanding of EEG signals.
翻訳日:2024-08-26 19:27:29 公開日:2024-08-23
# ポリシ・ズームング:適応的離散化に基づく無限水平平均逆強化学習

Policy Zooming: Adaptive Discretization-based Infinite-Horizon Average-Reward Reinforcement Learning ( http://arxiv.org/abs/2405.18793v2 )

ライセンス: Link先を確認
Avik Kar, Rahul Singh, (参考訳) リプシッツ MDP に対する無限水平平均回帰学習(RL)について検討し、状態-作用空間を適応的に離散化し、高い平均報酬をもたらすと思われる「政治空間」の有望な領域にズームインするアルゴリズム PZRL を開発した。 PZRL の後悔は $\tilde{\mathcal{O}}\big(T^{1 - d_{\text{eff.) として表すことができる。 これは$d_{\text{eff.*}^{-1}}\big)$である。 }} = 2d_\mathcal{S} + d^\Phi_z+2$, $d_\mathcal{S}$ は状態空間の次元、$d^\Phi_z$ はズーム次元である。 d^\Phi_z$ は、基礎となる MDP だけでなく、エージェントが使用するポリシーのクラス $\Phi$ にも依存する問題依存量である。 現在の研究は、$d^\Phi_z$ で無限水平平均逆 RL の適応性ゲインを捉える方法を示している。 既存の拡大次元の概念は、状態-作用空間の次元をカバーする拡大次元アプローチが$T\to\infty$として成り立つため、エピソード RL の場合のみを扱うことができ、従って適応性は得られない。 PZRLの性能を評価するためにいくつかの実験を行った。 PZRLは他の最先端アルゴリズムよりも優れており、適応性によって生じる利得を明らかに示している。

We study infinite-horizon average-reward reinforcement learning (RL) for Lipschitz MDPs and develop an algorithm PZRL that discretizes the state-action space adaptively and zooms in to promising regions of the "policy space" which seems to yield high average rewards. We show that the regret of PZRL can be bounded as $\tilde{\mathcal{O}}\big(T^{1 - d_{\text{eff.}}^{-1}}\big)$, where $d_{\text{eff.}}= 2d_\mathcal{S} + d^\Phi_z+2$, $d_\mathcal{S}$ is the dimension of the state space, and $d^\Phi_z$ is the zooming dimension. $d^\Phi_z$ is a problem-dependent quantity that depends not only on the underlying MDP but also the class of policies $\Phi$ used by the agent, which allows us to conclude that if the agent apriori knows that optimal policy belongs to a low-complexity class (that has small $d^\Phi_z$), then its regret will be small. The current work shows how to capture adaptivity gains for infinite-horizon average-reward RL in terms of $d^\Phi_z$. We note that the preexisting notions of zooming dimension are adept at handling only the episodic RL case since zooming dimension approaches covering dimension of state-action space as $T\to\infty$ and hence do not yield any possible adaptivity gains. Several experiments are conducted to evaluate the performance of PZRL. PZRL outperforms other state-of-the-art algorithms; this clearly demonstrates the gains arising due to adaptivity.
翻訳日:2024-08-26 19:27:29 公開日:2024-08-23
# EMAG:Ego-motion Aware and Generalizable 2D Hand Forecasting from Egocentric Videos

EMAG: Ego-motion Aware and Generalizable 2D Hand Forecasting from Egocentric Videos ( http://arxiv.org/abs/2405.20030v2 )

ライセンス: Link先を確認
Masashi Hatano, Ryo Hachiuma, Hideo Saito, (参考訳) エゴセントリックなビデオから将来の人間の行動を予測することは、人間の意図を理解する上で難しいが重要な課題である。 2次元手の位置を予測するための既存の手法は視覚的表現に依存しており、主に手動物体の相互作用に焦点を当てている。 本稿では,1)エゴセントリックな映像における2次元手の位置が,エゴセントリックな映像のエゴモーションに強く影響されていること,(2)視覚情報に基づく予測は背景やシーンのテクスチャに過度に適合する傾向にあり,新規シーンや人間の行動の一般化に挑戦する傾向にあること,の2つの課題に対処する。 上記の問題を解決するために,エゴ運動認識と一般化可能な2次元手指予測法であるEMAGを提案する。 最初の問題に対して,2つの連続するフレームのホモグラフィ行列列で表されるエゴ運動を考慮した手法を提案する。 さらに、光学的流れ、手の軌跡、相互作用する物体、エゴモーションなどのモダリティを活用し、第2の問題を緩和する。 Ego4DとEPIC-Kitchens 55という2つの大規模エゴセントリックビデオデータセットの大規模な実験により,提案手法の有効性が検証された。 特に,本モデルでは,従来手法よりも1.7%,7.0%向上した。 プロジェクトページ:https://masashi-hatano.github.io/EMAG/

Predicting future human behavior from egocentric videos is a challenging but critical task for human intention understanding. Existing methods for forecasting 2D hand positions rely on visual representations and mainly focus on hand-object interactions. In this paper, we investigate the hand forecasting task and tackle two significant issues that persist in the existing methods: (1) 2D hand positions in future frames are severely affected by ego-motions in egocentric videos; (2) prediction based on visual information tends to overfit to background or scene textures, posing a challenge for generalization on novel scenes or human behaviors. To solve the aforementioned problems, we propose EMAG, an ego-motion-aware and generalizable 2D hand forecasting method. In response to the first problem, we propose a method that considers ego-motion, represented by a sequence of homography matrices of two consecutive frames. We further leverage modalities such as optical flow, trajectories of hands and interacting objects, and ego-motions, thereby alleviating the second issue. Extensive experiments on two large-scale egocentric video datasets, Ego4D and EPIC-Kitchens 55, verify the effectiveness of the proposed method. In particular, our model outperforms prior methods by 1.7% and 7.0% on intra and cross-dataset evaluations, respectively. Project page: https://masashi-hatano.github.io/EMAG/
翻訳日:2024-08-26 19:27:29 公開日:2024-08-23
# 大規模言語モデルはゼロショット次位置予測器である

Large Language Models are Zero-Shot Next Location Predictors ( http://arxiv.org/abs/2405.20962v3 )

ライセンス: Link先を確認
Ciro Beneduce, Bruno Lepri, Massimiliano Luca, (参考訳) 将来、個人が訪れる場所を予測することは、病気の拡散や汚染の低減といった多くの社会的問題を解決するために不可欠である。 しかし、次の位置予測器は、いくつかのシナリオ(例えば、コールドスタート)で不足または利用できない可能性のある、大量の個別レベルの情報を必要とする。 大規模言語モデル(LLM)は、優れた一般化と推論能力を示し、地理的知識に富んでいるため、これらのモデルがゼロショットの次位置予測器として機能すると考えることができる。 実世界の3つのモビリティデータセットで15 LLMをテストしたところ、LCMが36.2%の精度で取得できることがわかりました。 また,データ汚染の試行を行い,次位置予測のためのテキストベース説明器としてLLMを使用する可能性について検討し,モデルのサイズに関わらず,LLMがそれらの決定を説明できることを実証した。

Predicting the locations an individual will visit in the future is crucial for solving many societal issues like disease diffusion and reduction of pollution. However, next-location predictors require a significant amount of individual-level information that may be scarce or unavailable in some scenarios (e.g., cold-start). Large Language Models (LLMs) have shown good generalization and reasoning capabilities and are rich in geographical knowledge, allowing us to believe that these models can act as zero-shot next-location predictors. We tested more than 15 LLMs on three real-world mobility datasets and we found that LLMs can obtain accuracies up to 36.2%, a significant relative improvement of almost 640% when compared to other models specifically designed for human mobility. We also test for data contamination and explored the possibility of using LLMs as text-based explainers for next-location prediction, showing that, regardless of the model size, LLMs can explain their decision.
翻訳日:2024-08-26 19:27:29 公開日:2024-08-23
# 両世界のベスト - 真面目でヘルプな大規模言語モデルを目指して

The Best of Both Worlds: Toward an Honest and Helpful Large Language Model ( http://arxiv.org/abs/2406.00380v2 )

ライセンス: Link先を確認
Chujie Gao, Qihui Zhang, Dongping Chen, Yue Huang, Siyuan Wu, Zhengyan Fu, Yao Wan, Xiangliang Zhang, Lichao Sun, (参考訳) 大規模言語モデル(LLM)は、その例外的な生成能力により、様々な産業で顕著な成功を収めている。 しかし、安全で効果的な現実世界のデプロイメントでは、誠実さと役に立つことを保証することが重要です。 正直さを維持しながらLLMの有用性を優先できるだろうか? まず,LLMの誠実性を保証するための徹底的な原則を確立する。 さらに,6つのカテゴリにまたがる930のクエリからなる,HoneSetと呼ばれる新しいデータセットを導入する。 次に,LLMの誠実さと有用性を高めるための2つのアプローチとして,トレーニング不要の強化と微調整に基づく改善を提案する。 学習の自由なアプローチは好奇心を駆使したプロンプトに基づいており、LCMはクエリに関する内部の混乱と不確実性を明確にし、その応答を最適化する。 逆に、微調整ベースの手法では、カリキュラム学習にインスパイアされた2段階のプロセスが採用されている。 9つの顕著なLCMを用いて行った実験は,提案手法の実装を通じて,全てのモデルにおいて誠実さに適合することを示す。 特に注目すべきは、Llama3-8bで観測された65.3%の増強と、H$^{2}$(正直で有益な)評価によって測定されたMistral-7bの124.7%の顕著な改善である。 われわれの仕事は、現実世界のアプリケーションのために、より信頼できるLCMを開発するための道を開くことができると信じている。

Large Language Models (LLMs) have achieved remarkable success across various industries due to their exceptional generative capabilities. However, for safe and effective real-world deployments, ensuring honesty and helpfulness is critical. This paper addresses the question: Can we prioritize the helpfulness of LLMs while preserving their honesty? To begin with, we establish exhaustive principles aimed at guaranteeing the honesty of LLM. Additionally, we introduce a novel dataset, referred to as HoneSet, comprising 930 queries spanning six categories meticulously crafted to assess an LLM's capacity for maintaining honesty. Subsequently, we present two approaches to augmenting honesty and helpfulness in LLMs: a training-free enhancement and a fine-tuning-based improvement. The training-free approach, which is based on curiosity-driven prompting, empowers LLMs to articulate internal confusion and uncertainty regarding queries, thereby optimizing their responses. Conversely, the fine-tuning-based method employs a two-stage process inspired by curriculum learning: initially instructing LLMs to discern between honest and dishonest responses, then refining their training to enhance helpfulness. Experiments conducted on nine prominent LLMs demonstrate a significant improvement in alignment with honesty across all models through the implementation of our proposed enhancements. Particularly noteworthy is the 65.3% enhancement observed in Llama3-8b and the remarkable 124.7% improvement in Mistral-7b, as measured by the H$^{2}$ (honest and helpful) assessment. We believe that our work can pave the way for developing more trustworthy LLMs for real-world applications.
翻訳日:2024-08-26 19:27:29 公開日:2024-08-23
# S-CycleGAN: CT-Ultrasound Image-to- Image Translationによるロボット超音波診断

S-CycleGAN: Semantic Segmentation Enhanced CT-Ultrasound Image-to-Image Translation for Robotic Ultrasonography ( http://arxiv.org/abs/2406.01191v2 )

ライセンス: Link先を確認
Yuhan Song, Nak Young Chong, (参考訳) 超音波画像は、その非侵襲性や安全性のため、様々な診断において重要である。 臨床実践においては,超音波画像解析の精度と精度が重要である。 近年の深層学習の進歩は, 医用画像の処理能力が大きく向上している。 しかし、深層学習のデータ飢えの性質と高品質な超音波画像訓練データ不足により、深層学習に基づく超音波解析法の開発が抑制される。 これらの課題に対処するために,CTデータから高品質な合成超音波画像を生成するS-CycleGANという高度なディープラーニングモデルを導入する。 このモデルは、CycleGANフレームワークにセマンティック識別器を組み込んで、スタイル転送プロセス中に重要な解剖学的詳細が保存されることを保証する。 合成画像を用いて,ロボット支援超音波スキャンシステムの開発の諸側面を解明する。 データとコードはhttps://github.com/yhsong98/ct-us-i2i-translationで入手できる。

Ultrasound imaging is pivotal in various medical diagnoses due to its non-invasive nature and safety. In clinical practice, the accuracy and precision of ultrasound image analysis are critical. Recent advancements in deep learning are showing great capacity of processing medical images. However, the data hungry nature of deep learning and the shortage of high-quality ultrasound image training data suppress the development of deep learning based ultrasound analysis methods. To address these challenges, we introduce an advanced deep learning model, dubbed S-CycleGAN, which generates high-quality synthetic ultrasound images from computed tomography (CT) data. This model incorporates semantic discriminators within a CycleGAN framework to ensure that critical anatomical details are preserved during the style transfer process. The synthetic images are utilized to enhance various aspects of our development of the robot-assisted ultrasound scanning system. The data and code will be available at https://github.com/yhsong98/ct-us-i2i-translation.
翻訳日:2024-08-26 19:27:29 公開日:2024-08-23
# 制約付きか制約なしか? データからニューラルネットワークに基づく方程式の発見

Constrained or Unconstrained? Neural-Network-Based Equation Discovery from Data ( http://arxiv.org/abs/2406.02581v2 )

ライセンス: Link先を確認
Grant Norman, Jacqueline Wentz, Hemanth Kolla, Kurt Maute, Alireza Doostan, (参考訳) 多くの分野において、実践者はモデルシステムに微分方程式に依存することが多い。 しかし、多くの応用において、そのような方程式の理論的導出や解の正確な解法は難解である。 代わりに、パラメータ推定、演算子サブセット選択、ニューラルネットワークに基づく手法を含む最近開発された手法は、通常の微分方程式と偏微分方程式(PDE)の両方を、解釈可能性のスペクトル上でデータ駆動で発見することを可能にする。 これらの戦略の成功は、しばしば、状態変数のノイズの多い観測から代表方程式を正しく同定することに基づいており、それと密接に絡み合っているように、数学的戦略はそれらの方程式を強制するために利用された。 具体的には、後者は制約のない最適化戦略によって対処されている。 本稿では,PDEをニューラルネットワークとして表現し,制約付き最適化問題を解き,物理インフォームドニューラルネットワーク(PINN)に類似した中間状態表現を用いてPDEを発見することを提案する。 この制約付き最適化問題の目的関数は、データのマッチングを促進するが、制約は、PDEが複数の空間的コロケーションポイントで満たされることを要求する。 本稿では,この制約付き最適化問題を解くために,ペナルティ法と広く使用されている信頼区間障壁法を提案し,これらの手法を数値解析例で比較する。 バーガーズ方程式とコルトヴェーグ・ド・ヴライス方程式による結果から、後者の制約法はペナルティ法よりも優れており、特に高い騒音レベルやより少ないコロケーション点に対して優れていることが示された。 いずれの手法も、自動微分に依存するPINN方式とは対照的に、有限差分法などの古典的手法を用いてこれらのニューラルネットワークPDEを解く。 私たちは、他の小さな、しかし重要な、実装の詳細を簡潔に強調します。

Throughout many fields, practitioners often rely on differential equations to model systems. Yet, for many applications, the theoretical derivation of such equations and/or accurate resolution of their solutions may be intractable. Instead, recently developed methods, including those based on parameter estimation, operator subset selection, and neural networks, allow for the data-driven discovery of both ordinary and partial differential equations (PDEs), on a spectrum of interpretability. The success of these strategies is often contingent upon the correct identification of representative equations from noisy observations of state variables and, as importantly and intertwined with that, the mathematical strategies utilized to enforce those equations. Specifically, the latter has been commonly addressed via unconstrained optimization strategies. Representing the PDE as a neural network, we propose to discover the PDE by solving a constrained optimization problem and using an intermediate state representation similar to a Physics-Informed Neural Network (PINN). The objective function of this constrained optimization problem promotes matching the data, while the constraints require that the PDE is satisfied at several spatial collocation points. We present a penalty method and a widely used trust-region barrier method to solve this constrained optimization problem, and we compare these methods on numerical examples. Our results on the Burgers' and the Korteweg-De Vreis equations demonstrate that the latter constrained method outperforms the penalty method, particularly for higher noise levels or fewer collocation points. For both methods, we solve these discovered neural network PDEs with classical methods, such as finite difference methods, as opposed to PINNs-type methods relying on automatic differentiation. We briefly highlight other small, yet crucial, implementation details.
翻訳日:2024-08-26 19:27:29 公開日:2024-08-23
# 深層学習に基づく超大規模MIMOのための近接場ビームトレーニング

Near-field Beam training for Extremely Large-scale MIMO Based on Deep Learning ( http://arxiv.org/abs/2406.03249v2 )

ライセンス: Link先を確認
Jiali Nie, Yuanhao Cui, Zhaohui Yang, Weijie Yuan, Xiaojun Jing, (参考訳) ELAA(Extremely Large-scale Array)は、将来の通信システムのフロンティア技術であり、無線システムの速度とスペクトル効率を改善する上で重要な技術である。 ELAAは高周波数で作動するアンテナを多用しているため、通常は球面波面が伝播する近接場に位置する。 ELAAにおける近接場ビームトレーニングは、角度と距離の情報の両方を必要とするため、必然的にビームトレーニングのオーバーヘッドが大幅に増加する。 この問題に対処するために,ディープラーニングに基づく近接場ビームトレーニング手法を提案する。 我々は、畳み込みニューラルネットワーク(CNN)を用いて、パディングとカーネルサイズを戦略的に選択することで、歴史的データからチャネル特性を効率的に学習する。 損失関数としてユーザ平均達成率の負の値を利用してビームフォーマを最適化する。 この方法は、予め定義されたビームコードブックを使わずに、マルチユーザネットワークの達成率を最大化する。 デプロイ時には、最適なビームフォーミングベクトルを導出するために、事前に推定されたチャネル状態情報(CSI)のみを必要とする。 シミュレーションの結果,提案手法は従来のビームトレーニング法と比較して,より安定なビームフォーミングゲインを実現し,性能を著しく向上することが示された。 さらに, 深層学習手法の特質から, 近距離場ビーム訓練のオーバーヘッドを著しく低減する。

Extremely Large-scale Array (ELAA) is considered a frontier technology for future communication systems, pivotal in improving wireless systems' rate and spectral efficiency. As ELAA employs a multitude of antennas operating at higher frequencies, users are typically situated in the near-field region where the spherical wavefront propagates. The near-field beam training in ELAA requires both angle and distance information, which inevitably leads to a significant increase in the beam training overhead. To address this problem, we propose a near-field beam training method based on deep learning. We use a convolutional neural network (CNN) to efficiently learn channel characteristics from historical data by strategically selecting padding and kernel sizes. The negative value of the user average achievable rate is utilized as the loss function to optimize the beamformer. This method maximizes multi-user networks' achievable rate without predefined beam codebooks. Upon deployment, the model requires solely the pre-estimated channel state information (CSI) to derive the optimal beamforming vector. The simulation results demonstrate that the proposed scheme achieves a more stable beamforming gain and significantly improves performance compared to the traditional beam training method. Furthermore, owing to the inherent traits of deep learning methodologies, this approach substantially diminishes the near-field beam training overhead.
翻訳日:2024-08-26 19:27:29 公開日:2024-08-23
# mHuBERT-147:小型多言語 HuBERT モデル

mHuBERT-147: A Compact Multilingual HuBERT Model ( http://arxiv.org/abs/2406.06371v4 )

ライセンス: Link先を確認
Marcely Zanon Boito, Vivek Iyer, Nikolaos Lagos, Laurent Besacier, Ioan Calapodescu, (参考訳) 我々は90K時間のクリーンでオープンなデータに基づいて訓練された最初の汎用多言語HuBERT音声表現モデルであるmHuBERT-147を提案する。 マルチイテレーションの HuBERT アプローチをスケールアップするために,ファイスベースのクラスタリングを用い,元の手法よりも5.2倍高速なラベル割り当てを実現した。 また、言語とデータセットの多様性の両面を活用した、新しい多言語バッチアップサンプリング戦略を適用します。 3回のトレーニングを行った後、95MパラメータmHuBERT-147は、かなり多くのデータに基づいてトレーニングされたより大きなモデルよりも優れています。 ML-SUPERB 10minと1hのリーダーボードでは、SOTAスコアが3タスクで2位と1位です。 ASR/LIDタスク全体で、我々のモデルは一貫してXLS-R(300Mパラム、436K時間)を超え、はるかに大きなMSM(1Bパラム、491K時間)に対して強い競争力を示す。 以上の結果から,mHuBERT-147は多言語音声タスクの有望なモデルであり,高い性能とパラメータ効率のバランスを保っていることが示唆された。

We present mHuBERT-147, the first general-purpose massively multilingual HuBERT speech representation model trained on 90K hours of clean, open-license data. To scale up the multi-iteration HuBERT approach, we use faiss-based clustering, achieving 5.2x faster label assignment than the original method. We also apply a new multilingual batching up-sampling strategy, leveraging both language and dataset diversity. After 3 training iterations, our compact 95M parameter mHuBERT-147 outperforms larger models trained on substantially more data. We rank second and first on the ML-SUPERB 10min and 1h leaderboards, with SOTA scores for 3 tasks. Across ASR/LID tasks, our model consistently surpasses XLS-R (300M params; 436K hours) and demonstrates strong competitiveness against the much larger MMS (1B params; 491K hours). Our findings indicate that mHuBERT-147 is a promising model for multilingual speech tasks, offering an unprecedented balance between high performance and parameter efficiency.
翻訳日:2024-08-26 19:27:29 公開日:2024-08-23
# クラスアソシエーション埋め込みを用いた画像分類器の正確な説明モデル

Accurate Explanation Model for Image Classifiers using Class Association Embedding ( http://arxiv.org/abs/2406.07961v2 )

ライセンス: Link先を確認
Ruitao Xie, Jingbang Chen, Limai Jiang, Rui Xiao, Yi Pan, Yunpeng Cai, (参考訳) 画像分類は、様々なアプリケーションにおいて説明可能なモデルが決定的に要求される、データ分析における主要なタスクである。 ブラックボックス分類器から説明可能な知識を得るための多くの手法が提案されているが、これらの手法は分類タスクに関するグローバルな知識を抽出する効率を欠いているため、局所トラップに弱いため、しばしば精度が低下する。 本研究では,画像分類器を説明するためのグローバル知識とローカル知識の利点を組み合わせた生成的説明モデルを提案する。 クラス関連埋め込み(CAE)と呼ばれる表現学習手法を開発し,各サンプルを2つのクラス関連コードと個別コードにエンコードする。 与えられたサンプルの個別コードを変更されたクラス関連コードで再結合すると、保存された個々の文字を持つ合成リアルなサンプルになるが、修正されたクラス関連機能と、おそらくはフリップされたクラス割り当てがある。 クラス関連特徴を個々の特徴から効率的に分離するビルディングブロック・コヒーレンシー特徴抽出アルゴリズムを提案する。 抽出された特徴空間は、分類決定パターンを視覚化する低次元多様体を形成する。 各サンプルに関する説明は、分類結果が変わるまで、そのクラス関連コードをガイドパスに沿ってシフトさせることで、サンプルを1方向に連続的に修正する対実生成方式で達成することができる。 本研究では,画像分類タスクをサリエンシマップの形で説明するための最先端の手法と比較し,高い精度を達成できることを実証する。 コードはhttps://github.com/xrt11/XAI-CODEで公開されている。

Image classification is a primary task in data analysis where explainable models are crucially demanded in various applications. Although amounts of methods have been proposed to obtain explainable knowledge from the black-box classifiers, these approaches lack the efficiency of extracting global knowledge regarding the classification task, thus is vulnerable to local traps and often leads to poor accuracy. In this study, we propose a generative explanation model that combines the advantages of global and local knowledge for explaining image classifiers. We develop a representation learning method called class association embedding (CAE), which encodes each sample into a pair of separated class-associated and individual codes. Recombining the individual code of a given sample with altered class-associated code leads to a synthetic real-looking sample with preserved individual characters but modified class-associated features and possibly flipped class assignments. A building-block coherency feature extraction algorithm is proposed that efficiently separates class-associated features from individual ones. The extracted feature space forms a low-dimensional manifold that visualizes the classification decision patterns. Explanation on each individual sample can be then achieved in a counter-factual generation manner which continuously modifies the sample in one direction, by shifting its class-associated code along a guided path, until its classification outcome is changed. We compare our method with state-of-the-art ones on explaining image classification tasks in the form of saliency maps, demonstrating that our method achieves higher accuracies. The code is available at https://github.com/xrt11/XAI-CODE.
翻訳日:2024-08-26 19:27:29 公開日:2024-08-23
# X線スペクトルの解釈におけるエンコーダ・デコーダニューラルネットワーク

Encoder-Decoder Neural Networks in Interpretation of X-ray Spectra ( http://arxiv.org/abs/2406.14044v2 )

ライセンス: Link先を確認
Jalmari Passilahti, Anton Vladyka, Johannes Niskanen, (参考訳) エンコーダ-デコーダニューラルネットワーク(EDNN)は、フィードフォワードネットワークの出力と最も関連性の高い情報をボトルネック層におけるアクティベーション値に収束させる。 本研究では,エミュレータを用いた成分分析 (ECA) を用いて従来研究されてきたスペクトルの重要構造特性の同定を目的とした,シミュレーションX線分光データのエミュレーションと解釈におけるこのアーキテクチャの利用について検討する。 EDNNは対象変数の分散度でECAを上回り、物理用語で潜伏変数を解釈する際の複雑さも発見できる。 これら2つのアプローチの利点の妥協として,ECAの線形射影を用いたネットワークを開発し,その解釈のために潜伏変数からのベクトル展開の有益な特性を維持する。 これらの結果は、その凝縮後の情報回復の必要性と、正当化された解釈のための出力スペクトルに対する決定的な構造的自由度を同定することの要点である。

Encoder--decoder neural networks (EDNN) condense information most relevant to the output of the feedforward network to activation values at a bottleneck layer. We study the use of this architecture in emulation and interpretation of simulated X-ray spectroscopic data with the aim to identify key structural characteristics for the spectra, previously studied using emulator-based component analysis (ECA). We find an EDNN to outperform ECA in covered target variable variance, but also discover complications in interpreting the latent variables in physical terms. As a compromise of the benefits of these two approaches, we develop a network where the linear projection of ECA is used, thus maintaining the beneficial characteristics of vector expansion from the latent variables for their interpretation. These results underline the necessity of information recovery after its condensation and identification of decisive structural degrees of freedom for the output spectra for a justified interpretation.
翻訳日:2024-08-26 19:17:18 公開日:2024-08-23
# 生成的トポロジカルネットワーク

Generative Topological Networks ( http://arxiv.org/abs/2406.15152v2 )

ライセンス: Link先を確認
Alona Levy-Jurgenson, Zohar Yakhini, (参考訳) 生成モデルは近年大きな進歩を遂げているが、しばしば訓練や使用には困難で費用がかかる。 生成的トポロジカルネットワーク(GTN)は,これらの欠点に対処する新たな生成モデルである。 GTNはトポロジー理論に基づく単純な教師付き学習アプローチを用いて決定的に訓練される。 GTNは訓練が速く、サンプルを生成するために標準フィードフォワードニューラルネットワークに1つのフォワードパスしか必要としない。 我々は、MNIST、CelebA、Hands and Palm Imagesデータセットなど、いくつかのデータセット上でGTNの強度を実証する。 最後に、GTNsの背後にある理論は、パフォーマンスを改善するために生成モデルのトレーニング方法に関する洞察を提供する。 コードとウェイトは、https://github.com/alonalj/GTN.comで入手できる。

Generative models have seen significant advancements in recent years, yet often remain challenging and costly to train and use. We introduce Generative Topological Networks (GTNs) -- a new class of generative models that addresses these shortcomings. GTNs are trained deterministically using a simple supervised learning approach grounded in topology theory. GTNs are fast to train, and require only a single forward pass in a standard feedforward neural network to generate samples. We demonstrate the strengths of GTNs on several datasets, including MNIST, CelebA and the Hands and Palm Images dataset. Finally, the theory behind GTNs offers insights into how to train generative models for improved performance. Code and weights are available at: https://github.com/alonalj/GTN
翻訳日:2024-08-26 19:17:18 公開日:2024-08-23
# 生成テキストの微粒化評価に向けて : 忠実度尺度の比較分析

Towards Fine-Grained Citation Evaluation in Generated Text: A Comparative Analysis of Faithfulness Metrics ( http://arxiv.org/abs/2406.15264v2 )

ライセンス: Link先を確認
Weijia Zhang, Mohammad Aliannejadi, Yifei Yuan, Jiahuan Pei, Jia-Hong Huang, Evangelos Kanoulas, (参考訳) 大型言語モデル(LLM)は、しばしば「幻覚」として知られる、サポートされていない、または検証できないコンテンツを生成している。 これを軽減するために、検索拡張LDMは引用を取り入れ、検証可能なソースにその内容を埋め込む。 このような発展にもかかわらず、引用が関連するステートメントをどの程度うまくサポートしているかを手作業で評価することは、依然として大きな課題である。 従来の研究では、信頼度測定を用いて、引用支援を自動的に見積もっているが、現実的なシナリオにおいて、きめ細かい引用支援を見越して二分分類に限られている。 細粒度シナリオにおける忠実度指標の有効性を検討するため, 完全, 部分, サポートなしの3段階のサポートレベル間での引用を識別する上で, メトリクスの有効性を評価するための比較評価フレームワークを提案する。 本フレームワークでは, 相関分析, 分類評価, 検索評価を用いて, 測定値と人的判断とのアライメントを総合的に測定する。 以上の結果から,全ての評価において一貫した指標が得られず,きめ細かな支援評価の複雑さが明らかとなった。 この結果をもとに,より効果的なメトリクスを開発するための実践的なレコメンデーションを提供する。

Large language models (LLMs) often produce unsupported or unverifiable content, known as "hallucinations." To mitigate this, retrieval-augmented LLMs incorporate citations, grounding the content in verifiable sources. Despite such developments, manually assessing how well a citation supports the associated statement remains a major challenge. Previous studies use faithfulness metrics to estimate citation support automatically but are limited to binary classification, overlooking fine-grained citation support in practical scenarios. To investigate the effectiveness of faithfulness metrics in fine-grained scenarios, we propose a comparative evaluation framework that assesses the metric effectiveness in distinguishing citations between three-category support levels: full, partial, and no support. Our framework employs correlation analysis, classification evaluation, and retrieval evaluation to measure the alignment between metric scores and human judgments comprehensively. Our results show no single metric consistently excels across all evaluations, revealing the complexity of assessing fine-grained support. Based on the findings, we provide practical recommendations for developing more effective metrics.
翻訳日:2024-08-26 19:17:18 公開日:2024-08-23
# UniGen: 大規模言語モデルを用いたテキストデータセット生成のための統一フレームワーク

UniGen: A Unified Framework for Textual Dataset Generation Using Large Language Models ( http://arxiv.org/abs/2406.18966v3 )

ライセンス: Link先を確認
Siyuan Wu, Yue Huang, Chujie Gao, Dongping Chen, Qihui Zhang, Yao Wan, Tianyi Zhou, Xiangliang Zhang, Jianfeng Gao, Chaowei Xiao, Lichao Sun, (参考訳) GPT-4やLlama3のような大規模言語モデル(LLM)は、高品質な合成データ生成を可能にし、高価な人為的なデータセットへの依存を減らすことで、様々な分野に大きな影響を与えている。 それにもかかわらず、課題は、既存の生成フレームワークにおける一般化、制御可能性、多様性、真実性の領域に留まっている。 これらの課題に対処するため,本論文では,多種多様で正確かつ高度に制御可能なデータセットを生成するために設計された,総合的なLLMフレームワークであるUniGenを提案する。 UniGenは適応可能で、すべてのタイプのテキストデータセットをサポートし、革新的なメカニズムを通じて生成プロセスを強化する。 データ多様性を強化するため、UniGenは属性誘導生成モジュールとグループチェック機能を備えている。 精度向上のために、コードベースの数学的評価をラベル検証に使用し、検索拡張生成技術と併用して、事実検証を行う。 フレームワークはまた、特定の要求に合ったデータ生成プロセスのカスタマイズを可能にする、ユーザ指定の制約を可能にする。 大規模な実験では、UniGenが生成したデータの優れた品質を示し、UniGen内の各モジュールはこの拡張において重要な役割を果たす。 さらに、UniGenはLLMのベンチマークとデータ拡張という2つの実践シナリオに適用されている。 その結果、UniGenは動的および進化的なベンチマークを効果的にサポートし、データ拡張はエージェント指向能力や推論スキルなど、さまざまな領域におけるLLM能力を向上することが示された。

Large Language Models (LLMs) such as GPT-4 and Llama3 have significantly impacted various fields by enabling high-quality synthetic data generation and reducing dependence on expensive human-generated datasets. Despite this, challenges remain in the areas of generalization, controllability, diversity, and truthfulness within the existing generative frameworks. To address these challenges, this paper presents UniGen, a comprehensive LLM-powered framework designed to produce diverse, accurate, and highly controllable datasets. UniGen is adaptable, supporting all types of text datasets and enhancing the generative process through innovative mechanisms. To augment data diversity, UniGen incorporates an attribute-guided generation module and a group checking feature. For accuracy, it employs a code-based mathematical assessment for label verification alongside a retrieval-augmented generation technique for factual validation. The framework also allows for user-specified constraints, enabling customization of the data generation process to suit particular requirements. Extensive experiments demonstrate the superior quality of data generated by UniGen, and each module within UniGen plays a critical role in this enhancement. Additionally, UniGen is applied in two practical scenarios: benchmarking LLMs and data augmentation. The results indicate that UniGen effectively supports dynamic and evolving benchmarking, and that data augmentation improves LLM capabilities in various domains, including agent-oriented abilities and reasoning skills.
翻訳日:2024-08-26 19:17:18 公開日:2024-08-23
# TokenPacker:マルチモーダルLLMのための効率的なビジュアルプロジェクタ

TokenPacker: Efficient Visual Projector for Multimodal LLM ( http://arxiv.org/abs/2407.02392v3 )

ライセンス: Link先を確認
Wentong Li, Yuqian Yuan, Jian Liu, Dongqi Tang, Song Wang, Jie Qin, Jianke Zhu, Lei Zhang, (参考訳) ビジュアルプロジェクタは、マルチモーダル LLM (MLLM) において、ビジュアルエンコーダとLarge Language Model (LLM) の間に必須のブリッジとして機能する。 通常、MLLMは1対1変換によって全ての視覚的コンテキストを保存するために単純なMLPを採用する。 しかし、視覚トークンは冗長であり、高解像度画像を扱う場合には大幅に増大し、MLLMの効率を著しく損なう。 いくつかの最近の研究は、結果として生じる視覚トークンの数を減らすために、リサンプラー(resampler)や抽象体を導入している。 残念なことに、より細部を捉えることができず、MLLMの視覚的推論能力を損なう。 本研究では,密集した特徴を注入して凝縮した視覚トークンを生成するために,粗い微細なスキームを取り入れた新しいビジュアルプロジェクタを提案する。 具体的には、まず視覚的特徴を低解像度の点問合せとして補間し、全体の視覚的表現を基礎として提供する。 次に,高分解能で多レベルな領域ベースキューを微細な参照キーや値として利用する領域間インジェクションモジュールを導入し,対応するローカルコンテキスト領域に完全に吸収できるようにする。 このステップは、粗いポイントクエリを効果的に更新し、後続のLCM推論のために強化されたクエリに変換する。 広汎な実験により、我々の手法は視覚トークンを75%〜89%圧縮する一方で、非常に高い効率で様々なベンチマークで同等またはさらに優れた性能を実現していることが示された。 ソースコードはhttps://github.com/CircleRadon/TokenPackerにある。

The visual projector serves as an essential bridge between the visual encoder and the Large Language Model (LLM) in a Multimodal LLM (MLLM). Typically, MLLMs adopt a simple MLP to preserve all visual contexts via one-to-one transformation. However, the visual tokens are redundant and can be considerably increased when dealing with high-resolution images, impairing the efficiency of MLLMs significantly. Some recent works have introduced resampler or abstractor to reduce the number of resulting visual tokens. Unfortunately, they fail to capture finer details and undermine the visual reasoning capabilities of MLLMs. In this work, we propose a novel visual projector, which adopts a coarse-to-fine scheme to inject the enriched characteristics to generate the condensed visual tokens. In specific, we first interpolate the visual features as a low-resolution point query, providing the overall visual representation as the foundation. Then, we introduce a region-to-point injection module that utilizes high-resolution, multi-level region-based cues as fine-grained reference keys and values, allowing them to be fully absorbed within the corresponding local context region. This step effectively updates the coarse point query, transforming it into an enriched one for the subsequent LLM reasoning. Extensive experiments demonstrate that our approach compresses the visual tokens by 75%~89%, while achieves comparable or even better performance across diverse benchmarks with significantly higher efficiency. The source codes can be found at https://github.com/CircleRadon/TokenPacker.
翻訳日:2024-08-26 19:17:18 公開日:2024-08-23
# 非構造化自然言語データによる終端因果効果の推定

End-To-End Causal Effect Estimation from Unstructured Natural Language Data ( http://arxiv.org/abs/2407.07018v2 )

ライセンス: Link先を確認
Nikita Dhawan, Leonardo Cotta, Karen Ullrich, Rahul G. Krishnan, Chris J. Maddison, (参考訳) 介入の効果を知ることは、人間の意思決定にとって重要であるが、因果的効果推定の現在のアプローチは、因果的仮定にかかわらず、手動のデータ収集と構造化に依存している。 これにより、研究のコストと完成までの時間の両方が増大する。 本研究では,大規模言語モデル(LLM)を用いて,適切な因果推定条件下での安価な因果効果推定を行うために,多種多様な観測テキストデータをいかに大規模にマイニングできるかを示す。 NATURALは,LLMを用いて構築され,非構造化テキストのデータセット上で動作する因果効果推定器である。 我々の推定器は、古典的因果効果推定器の計算を支援するために、LLM条件分布(テキストデータから導かれる変数)を用いる。 データキュレーションの自動化やLLMの活用など,このアイデアを実現するための技術的課題を数多く克服しています。 我々は6つの(合成と4つの実の)観測データセットを作成し、それに対応する真実をランダム化トライアルの形で組み合わせ、パイプラインの各ステップを体系的に評価した。 ナトゥラル推定器は顕著な性能を示し、実世界の第3/4相臨床試験を含め、根本的真理の3ポイント以内の因果効果を推定する。 この結果から、非構造化テキストデータは因果効果情報の豊富な情報源であり、NATURALはこのリソースを利用するための自動パイプラインへの第一歩であることを示唆した。

Knowing the effect of an intervention is critical for human decision-making, but current approaches for causal effect estimation rely on manual data collection and structuring, regardless of the causal assumptions. This increases both the cost and time-to-completion for studies. We show how large, diverse observational text data can be mined with large language models (LLMs) to produce inexpensive causal effect estimates under appropriate causal assumptions. We introduce NATURAL, a novel family of causal effect estimators built with LLMs that operate over datasets of unstructured text. Our estimators use LLM conditional distributions (over variables of interest, given the text data) to assist in the computation of classical estimators of causal effect. We overcome a number of technical challenges to realize this idea, such as automating data curation and using LLMs to impute missing information. We prepare six (two synthetic and four real) observational datasets, paired with corresponding ground truth in the form of randomized trials, which we used to systematically evaluate each step of our pipeline. NATURAL estimators demonstrate remarkable performance, yielding causal effect estimates that fall within 3 percentage points of their ground truth counterparts, including on real-world Phase 3/4 clinical trials. Our results suggest that unstructured text data is a rich source of causal effect information, and NATURAL is a first step towards an automated pipeline to tap this resource.
翻訳日:2024-08-26 19:17:18 公開日:2024-08-23
# 階層型合意に基づくマルチロボット協調作業のためのマルチエージェント強化学習

Hierarchical Consensus-Based Multi-Agent Reinforcement Learning for Multi-Robot Cooperation Tasks ( http://arxiv.org/abs/2407.08164v2 )

ライセンス: Link先を確認
Pu Feng, Junkang Liang, Size Wang, Xin Yu, Xin Ji, Yiting Chen, Kui Zhang, Rongye Shi, Wenjun Wu, (参考訳) マルチエージェント強化学習(MARL)では、中央集中型訓練と分散実行(CTDE)フレームワークが重要であるが、ギャップのために苦労している。 人間の社会的コンセンサス機構にインスパイアされた階層型マルチエージェント強化学習(HC-MARL)フレームワークを導入し,その限界に対処する。 HC-MARLは、エージェント間のグローバルコンセンサスを促進するために対照的な学習を採用し、直接のコミュニケーションなしに協調行動を可能にする。 このアプローチにより、エージェントはローカルな観測からグローバルなコンセンサスを形成することができ、それを追加の情報として使用することで、実行中の協調行動のガイドが可能になる。 様々なタスクの動的な要求を満たすために、コンセンサスを複数の層に分割し、短期的および長期的考慮を包含する。 短期的な観測は即時、低層的なコンセンサスの形成を促す一方で、長期的な観測は戦略的、高層的なコンセンサスの形成に寄与する。 このプロセスは、各コンセンサス層の影響を動的に調整するアダプティブアテンション機構によってさらに洗練される。 このメカニズムは即時反応と戦略的計画のバランスを最適化し、手前のタスクの特定の要求に合わせて調整する。 マルチロボットシステムにおける大規模な実験と実世界の応用は、我々のフレームワークの優れた性能を示し、ベースラインよりも大幅に進歩したことを示している。

In multi-agent reinforcement learning (MARL), the Centralized Training with Decentralized Execution (CTDE) framework is pivotal but struggles due to a gap: global state guidance in training versus reliance on local observations in execution, lacking global signals. Inspired by human societal consensus mechanisms, we introduce the Hierarchical Consensus-based Multi-Agent Reinforcement Learning (HC-MARL) framework to address this limitation. HC-MARL employs contrastive learning to foster a global consensus among agents, enabling cooperative behavior without direct communication. This approach enables agents to form a global consensus from local observations, using it as an additional piece of information to guide collaborative actions during execution. To cater to the dynamic requirements of various tasks, consensus is divided into multiple layers, encompassing both short-term and long-term considerations. Short-term observations prompt the creation of an immediate, low-layer consensus, while long-term observations contribute to the formation of a strategic, high-layer consensus. This process is further refined through an adaptive attention mechanism that dynamically adjusts the influence of each consensus layer. This mechanism optimizes the balance between immediate reactions and strategic planning, tailoring it to the specific demands of the task at hand. Extensive experiments and real-world applications in multi-robot systems showcase our framework's superior performance, marking significant advancements over baselines.
翻訳日:2024-08-26 19:17:18 公開日:2024-08-23
# 強化学習研究のための9つの物理エンジンのレビュー

A Review of Nine Physics Engines for Reinforcement Learning Research ( http://arxiv.org/abs/2407.08590v2 )

ライセンス: Link先を確認
Michael Kaup, Cornelius Wolff, Hyerim Hwang, Julius Mayer, Elia Bruni, (参考訳) 本稿では、強化学習(RL)研究に使用される一般的なシミュレーションエンジンとフレームワークについてレビューし、RLのシミュレーション物理環境とトレーニング環境を構築するためのツールの選択を研究者に指導することを目的とする。 9つのフレームワーク(Brax、Chrono、Gazebo、MuJoCo、ODE、PhysX、PyBullet、Webots、Unity)を、その人気、機能範囲、品質、ユーザビリティ、RL機能に基づいて評価している。 我々は、RL研究のための物理エンジンの選択と利用の課題を強調し、詳細な比較と各フレームワークの機能の理解の必要性について述べる。 主な発見は、ユーザビリティの課題にもかかわらず、そのパフォーマンスと柔軟性のために、MuJoCoが主要なフレームワークであることを示している。 Unityは使いやすさで有名だが、スケーラビリティとシミュレーションの忠実さに欠ける。 この研究は、シミュレーションエンジンのユーザビリティと性能を改善するためのさらなる開発を求め、RL研究における透明性と再現性の重要性を強調している。 このレビューは、シミュレーションエンジンの選択プロセスに関する洞察を提供することで、RLコミュニティに貢献し、情報的な意思決定を促進する。

We present a review of popular simulation engines and frameworks used in reinforcement learning (RL) research, aiming to guide researchers in selecting tools for creating simulated physical environments for RL and training setups. It evaluates nine frameworks (Brax, Chrono, Gazebo, MuJoCo, ODE, PhysX, PyBullet, Webots, and Unity) based on their popularity, feature range, quality, usability, and RL capabilities. We highlight the challenges in selecting and utilizing physics engines for RL research, including the need for detailed comparisons and an understanding of each framework's capabilities. Key findings indicate MuJoCo as the leading framework due to its performance and flexibility, despite usability challenges. Unity is noted for its ease of use but lacks scalability and simulation fidelity. The study calls for further development to improve simulation engines' usability and performance and stresses the importance of transparency and reproducibility in RL research. This review contributes to the RL community by offering insights into the selection process for simulation engines, facilitating informed decision-making.
翻訳日:2024-08-26 19:17:18 公開日:2024-08-23
# Flashアテンションによるパッケージングによるトレーニング効率の向上

Enhancing Training Efficiency Using Packing with Flash Attention ( http://arxiv.org/abs/2407.09105v5 )

ライセンス: Link先を確認
Achintya Kundu, Rhui Dih Lee, Laura Wynter, Raghu Kiran Ganti, Mayank Mishra, (参考訳) パディングは、各バッチの最長シーケンスの長さに合わせて、短いトレーニング例に特別なトークンを追加することで、LLMモデルのチューニングによく使用される。 これはバッチ処理の統一性を保証するが、計算に無関係なパディングトークンを含め、GPUリソースを浪費することで非効率を導入する。 Hugging Face SFTトレーナーは常に、パッキングを使用して複数のトレーニング例を組み合わせるオプションを提供しており、GPUリソースの最大利用を可能にしている。 しかし、これまでは各満員のトレーニング例の適切なマスキングを提供していなかった。 この機能はHugging Face Transformers 4.44に追加された。 この新機能を解析し、さまざまな種類のパッキングにまたがるメリットを示します。

Padding is often used in tuning LLM models by adding special tokens to shorter training examples to match the length of the longest sequence in each batch. While this ensures uniformity for batch processing, it introduces inefficiencies by including irrelevant padding tokens in the computation and wastes GPU resources. Hugging Face SFT trainer has always offered the option to use packing to combine multiple training examples, allowing for maximal utilization of GPU resources. However, up till now, it did not offer proper masking of each packed training example. This capability has now been added to Hugging Face Transformers 4.44. We analyse this new feature and show the benefits across different variations of packing.
翻訳日:2024-08-26 19:17:18 公開日:2024-08-23
# 心理的理論に基づくXAI体験品質評価のためのXEQ尺度

XEQ Scale for Evaluating XAI Experience Quality Grounded in Psychometric Theory ( http://arxiv.org/abs/2407.10662v3 )

ライセンス: Link先を確認
Anjana Wijekoon, Nirmalie Wiratunga, David Corsar, Kyle Martin, Ikechukwu Nkisi-Orji, Belen Díaz-Agudo, Derek Bridge, (参考訳) 説明可能な人工知能(XAI)は、説明を通じて自律的な意思決定の透明性を向上させることを目的としている。 近年の文献では、ユーザによる総合的な「マルチショット」の説明の必要性と、XAIシステムとの関わりをパーソナライズする能力を強調している。 我々はこのユーザ中心のインタラクションをXAI Experienceと呼んでいる。 XAIエクスペリエンス作成の進歩にもかかわらず、ユーザ中心の方法で評価することは依然として困難である。 これを解決するために,ユーザ中心のXAIエクスペリエンスの品質を評価するXAI Experience Quality (XEQ) Scale(“Seek” Scale)を紹介した。 さらに、XEQは、学習、ユーティリティ、フルフィルメント、エンゲージメントの4つの評価次元で経験の質を定量化します。 これらのコントリビューションは、XAI評価の最先端を延長し、シングルショットの説明を評価するために頻繁に開発された1次元のメトリクスを越えている。 本稿では,XAIの専門家によるコンテンツ検証や,大規模パイロットスタディによる差別的,構成的検証を含む,XEQスケールの開発と検証プロセスを提案する。 パイロット実験の結果は、ユーザ中心のXAIエクスペリエンスを評価するための包括的なフレームワークとして、XEQスケールを確立する強力な証拠を提供する。

Explainable Artificial Intelligence (XAI) aims to improve the transparency of autonomous decision-making through explanations. Recent literature has emphasised users' need for holistic "multi-shot" explanations and the ability to personalise their engagement with XAI systems. We refer to this user-centred interaction as an XAI Experience. Despite advances in creating XAI experiences, evaluating them in a user-centred manner has remained challenging. To address this, we introduce the XAI Experience Quality (XEQ) Scale (pronounced "Seek" Scale), for evaluating the user-centred quality of XAI experiences. Furthermore, XEQ quantifies the quality of experiences across four evaluation dimensions: learning, utility, fulfilment and engagement. These contributions extend the state-of-the-art of XAI evaluation, moving beyond the one-dimensional metrics frequently developed to assess single-shot explanations. In this paper, we present the XEQ scale development and validation process, including content validation with XAI experts as well as discriminant and construct validation through a large-scale pilot study. Out pilot study results offer strong evidence that establishes the XEQ Scale as a comprehensive framework for evaluating user-centred XAI experiences.
翻訳日:2024-08-26 19:17:18 公開日:2024-08-23
# 物理にインスパイアされた医用画像生成モデル : 概観

Physics-Inspired Generative Models in Medical Imaging: A Review ( http://arxiv.org/abs/2407.10856v2 )

ライセンス: Link先を確認
Dennis Hein, Afshin Bozorgpour, Dorit Merhof, Ge Wang, (参考訳) 物理にインスパイアされた生成モデル(GM)、特に拡散モデル(DM)とポアソンフローモデル(PFM)はベイズ的手法を強化し、医用画像における優れた有用性を約束する。 本稿では,このような生成手法の転換的役割について概説する。 第一に、Denoising Diffusion Probabilistic Models (DDPMs)、Score-based Diffusion Models (SDMs)、Poisson Flow Generative Models (PFGMsおよびPFGM++)など、物理学に触発された様々なGMが、その正確性、堅牢性、加速度に重点を置いて再考される。 次に, 画像再構成, 画像生成, 画像解析など, 物理に着想を得たGMの医療画像への応用について述べる。 最後に、将来の研究方向は、物理学にインスパイアされたGMの統合、ビジョン・ランゲージ・モデル(VLM)の統合、GMの新たな応用の可能性など、ブレインストーミングされている。 生成法の開発は急速に進んでいるので、このレビューは、新しい物理駆動型生成モデルのタイムリーなスナップショットを提供し、医療画像の潜在能力を最大限に活用することを期待している。

Physics-inspired Generative Models (GMs), in particular Diffusion Models (DMs) and Poisson Flow Models (PFMs), enhance Bayesian methods and promise great utility in medical imaging. This review examines the transformative role of such generative methods. First, a variety of physics-inspired GMs, including Denoising Diffusion Probabilistic Models (DDPMs), Score-based Diffusion Models (SDMs), and Poisson Flow Generative Models (PFGMs and PFGM++), are revisited, with an emphasis on their accuracy, robustness as well as acceleration. Then, major applications of physics-inspired GMs in medical imaging are presented, comprising image reconstruction, image generation, and image analysis. Finally, future research directions are brainstormed, including unification of physics-inspired GMs, integration with Vision-Language Models (VLMs), and potential novel applications of GMs. Since the development of generative methods has been rapid, this review will hopefully give peers and learners a timely snapshot of this new family of physics-driven generative models and help capitalize their enormous potential for medical imaging.
翻訳日:2024-08-26 19:17:18 公開日:2024-08-23
# Phi-3 トレーニング後の安全性: "Break-Fix" サイクルによる言語モデルの調整

Phi-3 Safety Post-Training: Aligning Language Models with a "Break-Fix" Cycle ( http://arxiv.org/abs/2407.13833v2 )

ライセンス: Link先を確認
Emman Haider, Daniel Perez-Becker, Thomas Portet, Piyush Madan, Amit Garg, Atabak Ashfaq, David Majercak, Wen Wen, Dongwoo Kim, Ziyi Yang, Jianwen Zhang, Hiteshi Sharma, Blake Bullwinkel, Martin Pouliot, Amanda Minnich, Shiven Chawla, Solianna Herrera, Shahed Warreth, Maggie Engler, Gary Lopez, Nina Chikanov, Raja Sekhar Rao Dheekonda, Bolor-Erdene Jagdagdorj, Roman Lutz, Richard Lundeen, Tori Westerhoff, Pete Bryan, Christian Seifert, Ram Shankar Siva Kumar, Andrew Berkley, Alex Kessler, (参考訳) 近年の言語モデルトレーニングの革新により,スマートフォン上で動作可能な小型の高性能モデルを作成することが可能になった。 これらのモデルは、ますます多くのドメインに展開されるため、人間の好みや安全性に適合していることを保証することが重要である。 本稿では,Phi-3シリーズの言語モデルの安全性向上のための手法を提案する。 私たちは"ブレークフィックス"サイクルを利用して、データセットのキュレーション、トレーニング後の安全性、ベンチマーク、レッドチーム、脆弱性の識別を複数回実施して、シングルターンシナリオとマルチターンシナリオの両方でさまざまな障害領域をカバーしました。 提案手法は,幅広いAIベンチマークにおいて,Phi-3モデルの性能を反復的に向上させることが示唆された。 最後に、多言語機能に最適化されたPhi-3.5-miniとPhi-3.5-MoEの安全性挙動をテストするために用いられた、追加のレッドチーム戦略と評価を含む。

Recent innovations in language model training have demonstrated that it is possible to create highly performant models that are small enough to run on a smartphone. As these models are deployed in an increasing number of domains, it is critical to ensure that they are aligned with human preferences and safety considerations. In this report, we present our methodology for safety aligning the Phi-3 series of language models. We utilized a "break-fix" cycle, performing multiple rounds of dataset curation, safety post-training, benchmarking, red teaming, and vulnerability identification to cover a variety of harm areas in both single and multi-turn scenarios. Our results indicate that this approach iteratively improved the performance of the Phi-3 models across a wide range of responsible AI benchmarks. Finally, we include additional red teaming strategies and evaluations that were used to test the safety behavior of Phi-3.5-mini and Phi-3.5-MoE, which were optimized for multilingual capabilities.
翻訳日:2024-08-26 19:17:18 公開日:2024-08-23
# 生成型AIと大規模言語モデルの最近の進歩:現状,課題,展望

Recent Advances in Generative AI and Large Language Models: Current Status, Challenges, and Perspectives ( http://arxiv.org/abs/2407.14962v5 )

ライセンス: Link先を確認
Desta Haileselassie Hagos, Rick Battle, Danda B. Rawat, (参考訳) 生成人工知能(AI)とLarge Language Models(LLMs)の出現は、さまざまなドメインに革命をもたらす前例のない機能を導入し、自然言語処理(NLP)の新しい時代を象徴している。 本稿では,これらの最先端技術の現状を概観し,その顕著な進歩と広範囲な応用を実証する。 本稿では,ジェネレーティブAIとLLMの進化途上における技術的基盤,実践的応用,新たな課題に関する総合的な視点の提供に寄与する。 我々は、AIシステムの生成能力とLLMの特定のコンテキストを理解することは、研究者、実践者、政策立案者にとって、これらの技術の責任と倫理的統合を様々な領域に協調的に形成することが不可欠であると考えている。 さらに、主要な研究ギャップを特定し、対処し、AI研究コミュニティにおける将来の研究成果をガイドするための貴重な洞察を提供する。

The emergence of Generative Artificial Intelligence (AI) and Large Language Models (LLMs) has marked a new era of Natural Language Processing (NLP), introducing unprecedented capabilities that are revolutionizing various domains. This paper explores the current state of these cutting-edge technologies, demonstrating their remarkable advancements and wide-ranging applications. Our paper contributes to providing a holistic perspective on the technical foundations, practical applications, and emerging challenges within the evolving landscape of Generative AI and LLMs. We believe that understanding the generative capabilities of AI systems and the specific context of LLMs is crucial for researchers, practitioners, and policymakers to collaboratively shape the responsible and ethical integration of these technologies into various domains. Furthermore, we identify and address main research gaps, providing valuable insights to guide future research endeavors within the AI research community.
翻訳日:2024-08-26 19:17:18 公開日:2024-08-23
# 大規模言語モデルでは GPT-4V が自動脱獄可能か?

Can Large Language Models Automatically Jailbreak GPT-4V? ( http://arxiv.org/abs/2407.16686v2 )

ライセンス: Link先を確認
Yuanwei Wu, Yue Huang, Yixin Liu, Xiang Li, Pan Zhou, Lichao Sun, (参考訳) GPT-4Vは、マルチモーダル情報の統合と処理に異常な能力があるため、かなりの注目を集めている。 同時に、顔認識能力は、プライバシー漏洩に対する新たな安全上の懸念を提起する。 RLHFや前処理フィルタによる安全性確保への研究者の努力にもかかわらず、脆弱性はいまだに悪用されている。 本研究では,迅速な最適化にインスパイアされた革新的自動ジェイルブレイク技術であるAutoJailbreakを紹介する。 我々は、大規模言語モデル(LLM)をレッドチームに活用し、ジェイルブレイクのプロンプトを洗練させ、弱いテキスト内学習プロンプトを使用して効率を向上する。 さらに,最適化時間とトークン支出を最小化するために,早期停止を組み込んだ効率的な探索手法を提案する。 実験の結果,AutoJailbreakは従来の手法をはるかに上回り,95.3倍のアタック成功率(ASR)を達成した。 この研究は、GPT-4Vのセキュリティ強化に光を当て、LCMがGPT-4Vの完全性向上に活用される可能性を強調している。

GPT-4V has attracted considerable attention due to its extraordinary capacity for integrating and processing multimodal information. At the same time, its ability of face recognition raises new safety concerns of privacy leakage. Despite researchers' efforts in safety alignment through RLHF or preprocessing filters, vulnerabilities might still be exploited. In our study, we introduce AutoJailbreak, an innovative automatic jailbreak technique inspired by prompt optimization. We leverage Large Language Models (LLMs) for red-teaming to refine the jailbreak prompt and employ weak-to-strong in-context learning prompts to boost efficiency. Furthermore, we present an effective search method that incorporates early stopping to minimize optimization time and token expenditure. Our experiments demonstrate that AutoJailbreak significantly surpasses conventional methods, achieving an Attack Success Rate (ASR) exceeding 95.3\%. This research sheds light on strengthening GPT-4V security, underscoring the potential for LLMs to be exploited in compromising GPT-4V integrity.
翻訳日:2024-08-26 19:17:18 公開日:2024-08-23
# ビジョンランゲージモデルを用いたゼロショットにおけるロボティクス問題の解法

Solving Robotics Problems in Zero-Shot with Vision-Language Models ( http://arxiv.org/abs/2407.19094v2 )

ライセンス: Link先を確認
Zidan Wang, Rui Shen, Bradly Stadie, (参考訳) ゼロショットシステムにおけるロボットの問題を解決するための多エージェントビジュアルLLM(VLLM)フレームワークであるWonderful Teamを紹介した。 ゼロショットでは、新しい環境において、ロボットの環境の画像とタスクの説明をVLLMに供給し、ロボットがタスクを完了するために必要なアクションのシーケンスをVLLMに出力する。 ロボット工学におけるVLLMの研究は、ロボットデータにLLMをチューニングしたり、知覚と行動生成のために別々の視覚エンコーダをトレーニングするなど、パイプラインの一部が微調整された設定に重点を置いていた。 驚くべきことに、最近のVLLMの能力の進歩により、このような微調整はもはや多くのタスクには必要ないかもしれない。 本研究は,ロボット作業のすべての側面を,高レベルな計画から低レベルな位置抽出,行動実行まで,単一のオフザシェルフVLLMで処理することができることを示す。 Wonderful Teamは、エージェント階層間でタスクを分割するマルチエージェントLDMの最近の進歩の上に構築されている。 VIMABenchと現実世界のロボット環境に関する大規模な実験は、操作、視覚的目標獲得、視覚的推論など、さまざまなロボットタスクをゼロショットで処理するシステムの能力を実証している。 これらの結果は、この1年でビジョン言語モデルは急速に進歩し、今後ロボット工学の問題のバックボーンとして強く考えるべきである、という重要なポイントを浮き彫りにしている。

We introduce Wonderful Team, a multi-agent visual LLM (VLLM) framework for solving robotics problems in the zero-shot regime. By zero-shot we mean that, for a novel environment, we feed a VLLM an image of the robot's environment and a description of the task, and have the VLLM output the sequence of actions necessary for the robot to complete the task. Prior work on VLLMs in robotics has largely focused on settings where some part of the pipeline is fine-tuned, such as tuning an LLM on robot data or training a separate vision encoder for perception and action generation. Surprisingly, due to recent advances in the capabilities of VLLMs, this type of fine-tuning may no longer be necessary for many tasks. In this work, we show that with careful engineering, we can prompt a single off-the-shelf VLLM to handle all aspects of a robotics task, from high-level planning to low-level location-extraction and action-execution. Wonderful Team builds on recent advances in multi-agent LLMs to partition tasks across an agent hierarchy, making it self-corrective and able to effectively partition and solve even long-horizon tasks. Extensive experiments on VIMABench and real-world robotic environments demonstrate the system's capability to handle a variety of robotic tasks, including manipulation, visual goal-reaching, and visual reasoning, all in a zero-shot manner. These results underscore a key point: vision-language models have progressed rapidly in the past year, and should strongly be considered as a backbone for robotics problems going forward.
翻訳日:2024-08-26 17:21:03 公開日:2024-08-23
# ハイパースペクトル画像分類のためのマルチヘッド空間スペクトルマンバ

Multi-head Spatial-Spectral Mamba for Hyperspectral Image Classification ( http://arxiv.org/abs/2408.01224v2 )

ライセンス: Link先を確認
Muhammad Ahmad, Muhammad Hassaan Farooq Butt, Muhammad Usama, Hamad Ahmed Altuwaijri, Manual Mazzara, Salvatore Distenano, (参考訳) 空間スペクトルマンバ(SSM)は計算効率を改善し、トランスフォーマーの制限に対処して長距離依存をキャプチャする。 しかし、伝統的なマンバモデルは、HSIの豊富なスペクトル情報を見落とし、高次元とシーケンシャルなデータに苦しむ。 これらの課題に対処するため,マルチヘッド自己注意・トークン拡張(MHSSMamba)を用いたSSMを提案する。 このモデルは、スペクトルトークンの強化とマルチヘッドアテンションを用いてスペクトルバンドと空間位置の複雑な関係を捉えることで、スペクトル情報と空間情報を統合する。 また、スペクトル帯域にまたがるコンテキスト情報を保存し、長距離依存やHSIデータのシーケンシャルな性質も管理する。 MHSSMambaはパヴィア大学で97.62 %、ヒューストン大学で96.92 %、サリナスで96.85 %、武漢長クーのデータセットで99.49 %という顕著な分類精度を達成した。 ソースコードは \href{https://github.com/MHassaanButt/MHA\_SS\_Mamba}{GitHub} で公開されている。

Spatial-Spectral Mamba (SSM) improves computational efficiency and captures long-range dependencies, addressing Transformer limitations. However, traditional Mamba models overlook rich spectral information in HSIs and struggle with high dimensionality and sequential data. To address these issues, we propose the SSM with multi-head self-attention and token enhancement (MHSSMamba). This model integrates spectral and spatial information by enhancing spectral tokens and using multi-head attention to capture complex relationships between spectral bands and spatial locations. It also manages long-range dependencies and the sequential nature of HSI data, preserving contextual information across spectral bands. MHSSMamba achieved remarkable classification accuracies of 97.62\% on Pavia University, 96.92\% on the University of Houston, 96.85\% on Salinas, and 99.49\% on Wuhan-longKou datasets. The source code is available at \href{https://github.com/MHassaanButt/MHA\_SS\_Mamba}{GitHub}.
翻訳日:2024-08-26 17:21:03 公開日:2024-08-23
# ハイパースペクトル画像分類のための空間スペクトル形態マンバ

Spatial-Spectral Morphological Mamba for Hyperspectral Image Classification ( http://arxiv.org/abs/2408.01372v2 )

ライセンス: Link先を確認
Muhammad Ahmad, Muhammad Hassaan Farooq Butt, Muhammad Usama, Adil Mehmood Khan, Manuel Mazzara, Salvatore Distefano, Hamad Ahmed Altuwaijri, Swalpa Kumar Roy, Jocelyn Chanussot, Danfeng Hong, (参考訳) 近年,自己注意機構を持つトランスフォーマーの出現は,ハイパースペクトル画像(HSI)の分類に革命をもたらした。 しかし、これらのモデルは計算効率の大きな課題に直面する。 状態空間モデル(SSM)を活用するMambaアーキテクチャは、Transformerのより効率的な代替手段を提供する。 本稿では、トークン生成モジュールが最初にHSIパッチを空間スペクトルトークンに変換する、空間スペクトル形態マンバ(MorpMamba)モデルを提案する。 これらのトークンはモルフォロジー演算によって処理され、奥行き分離可能な畳み込み演算を用いて構造情報と形状情報を計算する。 抽出された情報は、HSIサンプルの中心領域に基づいて空間トークンとスペクトルトークンを調整し、各ブロック内で効果的な情報融合を可能にする機能拡張モジュールで強化される。 その後、トークンはマルチヘッド自己アテンションによって洗練され、特徴空間をさらに改善する。 最後に、組み合わせた情報を状態空間ブロックに入力して、基底真理写像の分類と作成を行う。 広く使われているHSIデータセットの実験では、MorpMambaモデルはCNNモデルとTransformerモデルの両方で(パラメトリック効率)優れていた。 ソースコードは \url{https://github.com/MHassaanButt/MorpMamba} で公開されている。

In recent years, the emergence of Transformers with self-attention mechanism has revolutionized the hyperspectral image (HSI) classification. However, these models face major challenges in computational efficiency, as their complexity increases quadratically with the sequence length. The Mamba architecture, leveraging a state space model (SSM), offers a more efficient alternative to Transformers. This paper introduces the Spatial-Spectral Morphological Mamba (MorpMamba) model in which, a token generation module first converts the HSI patch into spatial-spectral tokens. These tokens are then processed by morphological operations, which compute structural and shape information using depthwise separable convolutional operations. The extracted information is enhanced in a feature enhancement module that adjusts the spatial and spectral tokens based on the center region of the HSI sample, allowing for effective information fusion within each block. Subsequently, the tokens are refined through a multi-head self-attention which further improves the feature space. Finally, the combined information is fed into the state space block for classification and the creation of the ground truth map. Experiments on widely used HSI datasets demonstrate that the MorpMamba model outperforms (parametric efficiency) both CNN and Transformer models. The source code will be made publicly available at \url{https://github.com/MHassaanButt/MorpMamba}.
翻訳日:2024-08-26 17:21:03 公開日:2024-08-23
# マジック・リソースの計測

Measurement Induced Magic Resources ( http://arxiv.org/abs/2408.01980v2 )

ライセンス: Link先を確認
Gongchu Li, Lei Chen, Si-Qi Zhang, Xu-Song Hong, Huaqing Xu, Yuancheng Liu, You Zhou, Geng Chen, Chuan-Feng Li, Alioscia Hamma, Guang-Can Guo, (参考訳) マジック状態とマジックゲートは普遍的な計算を達成するために重要であるが、量子優位性を達成するために魔法の資源をどのように実装すべきかという重要な疑問は、例えば、単一の量子ビットの測定だけで測定ベースの量子計算(MQC)の文脈において、まだ探索されていない。 この研究は、'invested'と'potential'マジックリソースの概念を導入することで、MQCとマジックのリソース理論のギャップを埋める。 前者はMQCフレームワークに関連するマジックコストを定量化し、マジックリソースの証人および望ましいユニタリ変換の実現のための上限として機能する。 潜在的なマジックリソースは、MQCを定義するグラフ構造における最大達成可能なマジックリソースを表す。 我々はこれらの概念を利用して量子フーリエ変換(QFT)のマジックリソース要件を分析し、異なるリソース状態のMQCの普遍性について新たな視点を提供し、マジックを注入するための非パウリ測定の重要性を強調した。 高忠実度4光子配置における我々の理論的予測を実験的に実証し、従来のマジック状態注入法の限界を超えながら、魔法状態の生成におけるMQCの効率を実証する。 本研究は, MQCフレームワーク内での魔法資源最適化と新しい蒸留スキームを探求し, フォールトトレラントな普遍量子計算の進歩に寄与する。

Magic states and magic gates are crucial for achieving universal computation, but some important questions about how magic resources should be implemented to attain quantum advantage have remained unexplored, for instance, in the context of Measurement-based Quantum Computation (MQC) with only single-qubit measurements. This work bridges the gap between MQC and the resource theory of magic by introducing the concept of ``invested'' and ``potential" magic resources. The former quantifies the magic cost associated with the MQC framework, serving both as a witness of magic resources and an upper bound for the realization of a desired unitary transformation. Potential magic resources represent the maximum achievable magic resource in a given graph structure defining the MQC. We utilize these concepts to analyze the magic resource requirements of the Quantum Fourier Transform (QFT) and provide a fresh perspective on the universality of MQC of different resource states, highlighting the crucial role of non-Pauli measurements for injecting magic. We demonstrate experimentally our theoretical predictions in a high-fidelity four-photon setup and demonstrate the efficiency of MQC in generating magic states, surpassing the limitations of conventional magic state injection methods. Our findings pave the way for future research exploring magic resource optimization and novel distillation schemes within the MQC framework, contributing to the advancement of fault-tolerant universal quantum computation.
翻訳日:2024-08-26 17:21:03 公開日:2024-08-23
# トポロジカルp波超伝導体

Topological p-wave Superconductors with Disorder and Interactions ( http://arxiv.org/abs/2408.02105v2 )

ライセンス: Link先を確認
Frederick Del Pozo, Loïc Herviou, Olesia Dmytruk, Karyn Le Hur, (参考訳) これはマヨラナフェルミオンのより現実的な応用を支援する可能性がある。 我々は,有線上の実空間相関関数からアクセス可能なトポロジカルマーカーに関連付けて,一本の有線と二本の有線に対する解析的,数学的,数値的手法を開発した。 本研究では, トポロジカル超伝導相の安定性を検証し, 量子相転移に近い障害効果を定量化する。 2重臨界イジング(DCI)相(半中心電荷とトポロジカル数からなる分数Majorana液)が、ワイヤ間の反転対称性(すなわち各ワイヤのパリティ保存)を尊重する障害に対する強い相互作用によって安定化されることを初めて示す。 ワイヤ間ホッピング項の存在下では、DCI相はバルクギャップを持つ保護位相となる。 弱い相互作用の臨界線に沿って発達する局在化物理について検討する。

interacting and disordered topological phases of coupled Kitaev wires, which may support further realistic applications of Majorana fermions. We develop a variety of analytical, mathematical and numerical methods for one and two-coupled wires, associated with a topological marker accessible from real-space correlation functions on the wire(s). We verify the stability of the topological superconducting phase and quantify disorder effects close to the quantum phase transitions, e.g. through two-point correlation functions or using a renormalization group (RG) analysis of disorder. We show for the first time that the double critical Ising (DCI) phase -- a fractional Majorana liquid characterized by a pair of half central charges and topological numbers -- is stabilized by strong interactions against disorder which respects the inversion symmetry between the wires (ie. parity conservation on each wire). In the presence of an inter-wire hopping term, the DCI phase turns into a protected topological phase with a bulk gap. We study the localization physics developing along the critical line for weaker interactions.
翻訳日:2024-08-26 17:21:03 公開日:2024-08-23
# LLaVA-VSD:視覚空間記述のための大規模言語・視覚アシスタント

LLaVA-VSD: Large Language-and-Vision Assistant for Visual Spatial Description ( http://arxiv.org/abs/2408.04957v2 )

ライセンス: Link先を確認
Yizhang Jin, Jian Li, Jiangning Zhang, Jianlong Hu, Zhenye Gan, Xin Tan, Yong Liu, Yabiao Wang, Chengjie Wang, Lizhuang Ma, (参考訳) ビジュアル空間記述(VSD)は、画像内のオブジェクト間の空間的関係を記述するテキストを生成することを目的としている。 従来の視覚的空間関係分類(VSRC)法は、通常、画像内の2つのオブジェクト間の空間関係を出力し、しばしば世界の知識を無視し、一般的な言語能力に欠ける。 本稿では、視覚空間関係の分類、記述、オープンな記述を目的としたLLaVA-VSDという、視覚空間記述のためのLarge Language-and-Vision Assistantを提案する。 具体的には、3つのタスクに対して与えられたフィギュア・キャプションペアを使用して、まずVSD命令追従データセットを構築する。 次にLoRAを使用して、VSD用のLarge Language and Vision Assistantを微調整する。 最後に、大きな言語モデル(Qwen-2)を使用して生成された文を洗練し、その多様性と精度を高める。 LLaVA-VSDは、優れたマルチモーダル対話機能を示し、画像内のオブジェクト関係に関する問い合わせを支援するために、オープンな指示に従うことができる。

Visual Spatial Description (VSD) aims to generate texts that describe the spatial relationships between objects within images. Traditional visual spatial relationship classification (VSRC) methods typically output the spatial relationship between two objects in an image, often neglecting world knowledge and lacking general language capabilities. In this paper, we propose a Large Language-and-Vision Assistant for Visual Spatial Description, named LLaVA-VSD, which is designed for the classification, description, and open-ended description of visual spatial relationships. Specifically, the model first constructs a VSD instruction-following dataset using given figure-caption pairs for the three tasks. It then employs LoRA to fine-tune a Large Language and Vision Assistant for VSD, which has 13 billion parameters and supports high-resolution images. Finally, a large language model (Qwen-2) is used to refine the generated sentences, enhancing their diversity and accuracy. LLaVA-VSD demonstrates excellent multimodal conversational capabilities and can follow open-ended instructions to assist with inquiries about object relationships in images.
翻訳日:2024-08-26 17:21:03 公開日:2024-08-23
# HPCとディープラーニングの再現性に及ぼす浮動小数点非連想性の影響

Impacts of floating-point non-associativity on reproducibility for HPC and deep learning applications ( http://arxiv.org/abs/2408.05148v2 )

ライセンス: Link先を確認
Sanjif Shanmugavelu, Mathieu Taillefumier, Christopher Culver, Oscar Hernandez, Mark Coletti, Ada Sedova, (参考訳) 浮動小数点非連想性(FPNA)による並列プログラムのラン・バイ・ランの変動は、反復アルゴリズムの再現性に大きな影響を与えることが知られている。 非再現性は確率的プログラムの正確性テストの効率と有効性に悪影響を及ぼす。 近年、深層学習(DL)トレーニングとFPNAへの推論パイプラインの感度は極端であり、商用アプリケーションへの認証、堅牢性と感度の正確な評価、バグ検出を防止できることが判明している。 科学計算アプリケーションにおける新しいアプローチは、DLモデルと高性能コンピューティング(HPC)シミュレーションを結合し、デバッグとテストの課題が増大した。 ここでは、現代の並列プログラミングモデルにおけるFPNAの統計的性質の調査、GPU上でのアトミック操作を決定論的代替品に置き換えるパフォーマンスと生産性への影響の分析、GPUデプロイメントのコンテキスト内で最近追加されたPyTorchフレームワーク内の決定論的オプションの検討、実行時の変動を誘発する入力パラメータの影響の解明と定量化、およびドキュメントの信頼性と完全性に関する報告を行う。 最後に,DLパイプラインの推論部分にGroq LPU$^{TM}$アクセラレータを用いて,決定論的ハードウェアによって提供される自動決定性を活用する戦略を評価する。 我々はこの戦略が再現性と正しさの努力の中でもたらす利益を実証する。

Run-by-run variability in parallel programs caused by floating-point non-associativity (FPNA) has been known to significantly affect reproducibility in iterative algorithms, due to accumulating errors. Non-reproducibility negatively affects efficiency and effectiveness of correctness testing for stochastic programs. Recently, the sensitivity of deep learning (DL) training and inference pipelines to FPNA have been found to be extreme, and can prevent certification for commercial applications, accurate assessment of robustness and sensitivity, and bug detection. New approaches in scientific computing applications have coupled DL models with high-performance computing (HPC) simulations, leading to an aggravation of debugging and testing challenges. Here we perform an investigation of the statistical properties of FPNA within modern parallel programming models, analyze performance and productivity impacts of replacing atomic operations with deterministic alternatives on GPUs, and examine the recently-added deterministic options within the PyTorch framework within the context of GPU deployment, uncovering and quantifying the impacts of input parameters triggering run-by-run variability and reporting on the reliability and completeness of the documentation. Finally, we evaluate the strategy of exploiting automatic determinism provided by deterministic hardware, using the Groq LPU$^{TM}$ accelerator for inference portions of the DL pipeline. We demonstrate the benefits that this strategy can provide within reproducibility and correctness efforts.
翻訳日:2024-08-26 17:21:03 公開日:2024-08-23
# Delta-Engineによるバーチャルワールドのスケーリング

Scaling Virtual World with Delta-Engine ( http://arxiv.org/abs/2408.05842v2 )

ライセンス: Link先を確認
Hongqiu Wu, Zekai Xu, Tianyang Xu, Jiale Hong, Weiqi Wu, Yan Wang, Hai Zhao, Min Zhang, Zhezhi He, (参考訳) 本稿では,人々が住むことができるサイバー空間である「emph{virtual world}」に焦点を当てる。 理想的な仮想世界は、私たちの現実世界と非常によく似ている。 重要な側面の1つは、その進化する性質であり、個人が成長し、それによって客観的世界に影響を与える能力に反映されている。 このような力学は予測不可能であり、既存のシステムの範囲を超えている。 そこで我々は,この仮想世界を駆動する特別なエンジンである「textbf{\emph{Delta-Engine}}」を提案する。 $\Delta$は、世界の進化とエンジンのスケーラビリティを関連付ける。 ベースエンジンとニューラルプロキシで構成される。 ベースエンジンは仮想世界のプロトタイプをプログラムし、トリガーが与えられたら、ニューラルネットワークはベースエンジン上で \emph{incremental prediction} を通じて新しいスニペットを生成する。 本稿ではデルタエンジンのフルスタック導入について述べる。 デルタエンジンの重要な特徴は、世界中の未知の要素へのスケーラビリティである。技術的には、ニューラルネットワークとベースエンジンの完全なコワーキング、高品質なデータとの整合性から導かれる。 本稿では,ベースエンジンをプロキシに組み込むエンジン指向の微調整手法を提案する。 次に、人間とLLMの協調設計を議論し、新しい興味深いデータを効率よく生成する。 最終的に,デルタエンジンの性能を総合的に評価する3つの評価原則を提案する。

In this paper, we focus on the \emph{virtual world}, a cyberspace where people can live in. An ideal virtual world shares great similarity with our real world. One of the crucial aspects is its evolving nature, reflected by individuals' capability to grow and thereby influence the objective world. Such dynamics is unpredictable and beyond the reach of existing systems. For this, we propose a special engine called \textbf{\emph{Delta-Engine}} to drive this virtual world. $\Delta$ associates the world's evolution to the engine's scalability. It consists of a base engine and a neural proxy. The base engine programs the prototype of the virtual world; given a trigger, the neural proxy generates new snippets on the base engine through \emph{incremental prediction}. This paper presents a full-stack introduction to the delta-engine. The key feature of the delta-engine is its scalability to unknown elements within the world, Technically, it derives from the prefect co-work of the neural proxy and the base engine, and the alignment with high-quality data. We introduce an engine-oriented fine-tuning method that embeds the base engine into the proxy. We then discuss the human-LLM collaborative design to produce novel and interesting data efficiently. Eventually, we propose three evaluation principles to comprehensively assess the performance of a delta engine: naive evaluation, incremental evaluation, and adversarial evaluation.
翻訳日:2024-08-26 17:21:03 公開日:2024-08-23
# Kernel Goodness-of-Fitテストのロバスト性について

On the Robustness of Kernel Goodness-of-Fit Tests ( http://arxiv.org/abs/2408.05854v2 )

ライセンス: Link先を確認
Xing Liu, François-Xavier Briol, (参考訳) すべてのモデルが間違っている''''' であるため、サンプルサイズが十分に大きい場合、データが我々のモデルに準拠しているというヌル仮説は常に拒否される。 それにもかかわらず、確率モデルはまだ広く使われており、特定のタスクに十分なモデルかどうかというより関連する疑問が提起されている。 この問題は、我々のモデルに対応する分布から、ある程度の摂動まで、データが生成されるかどうかを問うことで、堅牢な適合性テスト問題として定式化することができる。 本稿では,既存のカーネルの良性テストが質的,定量的な堅牢性といった,ロバスト性という一般的な概念に従えば,ロバスト性は向上しないことを示す。 また、パラメータ推定文献からの傾きカーネルに基づくロバスト手法は、良質なテストの文脈において、両方のロバスト性を保証するには不十分であることを示す。 そこで本研究では,ハマー汚染モデルや密度不確かさ帯などの摂動モデルを含むカーネル・スタイン離散性球を用いて,この問題を解決した最初の堅牢なカーネル良性テストを提案する。

Goodness-of-fit testing is often criticized for its lack of practical relevance; since ``all models are wrong'', the null hypothesis that the data conform to our model is ultimately always rejected when the sample size is large enough. Despite this, probabilistic models are still used extensively, raising the more pertinent question of whether the model is good enough for a specific task. This question can be formalized as a robust goodness-of-fit testing problem by asking whether the data were generated by a distribution corresponding to our model up to some mild perturbation. In this paper, we show that existing kernel goodness-of-fit tests are not robust according to common notions of robustness including qualitative and quantitative robustness. We also show that robust techniques based on tilted kernels from the parameter estimation literature are not sufficient for ensuring both types of robustness in the context of goodness-of-fit testing. We therefore propose the first robust kernel goodness-of-fit test which resolves this open problem using kernel Stein discrepancy balls, which encompass perturbation models such as Huber contamination models and density uncertainty bands.
翻訳日:2024-08-26 17:21:03 公開日:2024-08-23
# β可変オートエンコーダを用いた急性骨髄性白血病患者における白血球分化のマルチモーダル解析

Multimodal Analysis of White Blood Cell Differentiation in Acute Myeloid Leukemia Patients using a β-Variational Autoencoder ( http://arxiv.org/abs/2408.06720v2 )

ライセンス: Link先を確認
Gizem Mert, Ario Sadafi, Raheleh Salehi, Nassir Navab, Carsten Marr, (参考訳) 単細胞レゾリューションによるバイオメディカルイメージングとRNAシークエンシングにより、白血病のような白血球疾患の理解が向上する。 形態学的データと転写学的データを組み合わせることで、細胞分化に関わる細胞機能や軌跡の洞察を得ることができる。 しかし、既存の手法は形態学的および転写学的データの統合に苦慮しており、細胞の分化のダイナミクスを包括的に理解する上で重要な研究のギャップを残している。 本稿では、これらの2つのモードを探索・再構成し、形態学的および対応する転写産物の観点からヒト末梢血スミア由来の白血球の異なるサブタイプとの関係を明らかにする、教師なしの方法を提案する。 提案手法は, 単一セルを背景から識別し, 人工物からの干渉を最小限に抑えるため, R-CNNアーキテクチャを組み込んだβ変分オートエンコーダ({\ss}-VAE)に基づく。 この {\ss}-VAEの実装は、単一セルクラス間の明確な区別を維持しながら、連続的な潜伏埋め込みとともに、良好な再構成能力を示す。 我々の新しいアプローチは、細胞(顆粒球体)の顆粒形成などの複雑な生物学的過程における2つの潜在的特徴と遺伝子発現パターンとの相関を明らかにするのに特に有用である。 これにより、バイオメディシンと診断のための白血球成熟の理解を改善するためのユニークなツールを提供する。

Biomedical imaging and RNA sequencing with single-cell resolution improves our understanding of white blood cell diseases like leukemia. By combining morphological and transcriptomic data, we can gain insights into cellular functions and trajectoriess involved in blood cell differentiation. However, existing methodologies struggle with integrating morphological and transcriptomic data, leaving a significant research gap in comprehensively understanding the dynamics of cell differentiation. Here, we introduce an unsupervised method that explores and reconstructs these two modalities and uncovers the relationship between different subtypes of white blood cells from human peripheral blood smears in terms of morphology and their corresponding transcriptome. Our method is based on a beta-variational autoencoder ({\ss}-VAE) with a customized loss function, incorporating a R-CNN architecture to distinguish single-cell from background and to minimize any interference from artifacts. This implementation of {\ss}-VAE shows good reconstruction capability along with continuous latent embeddings, while maintaining clear differentiation between single-cell classes. Our novel approach is especially helpful to uncover the correlation of two latent features in complex biological processes such as formation of granules in the cell (granulopoiesis) with gene expression patterns. It thus provides a unique tool to improve the understanding of white blood cell maturation for biomedicine and diagnostics.
翻訳日:2024-08-26 17:21:03 公開日:2024-08-23
# オンラインフォーラムにおけるニュースコメントのギャップとアルゴリズムのアジェンダ設定

The News Comment Gap and Algorithmic Agenda Setting in Online Forums ( http://arxiv.org/abs/2408.07052v2 )

ライセンス: Link先を確認
Flora Böwing, Patrick Gildersleve, (参考訳) ジャーナリストが評価するニュース記事と「ニューズギャップ」として知られる読者が好むニュース記事の相違はよく文書化されている。 しかし、ニュース関連ユーザ生成コンテンツに対する期待の相違については、あまり研究されていない。 ニュースサイトが主催するコメントセクションは読者のエンゲージメントに人気があるが、それでも編集決定の対象となっている。 したがって、ジャーナリストと読者のコメント好みを理解することは重要である。 我々はオーストリアの新聞Der Standardから120万件のコメントを分析し、"News Comment Gap"と異なるランキングアルゴリズムの効果を理解する。 ジャーナリストはポジティブで、タイムリーで、複雑で、直感的な反応を好むのに対し、読者は、エリート作家の記事に類似したコメントを好む。 多様なランク付けアルゴリズムの影響を評価するために,多機能な特徴指向ランク付けユーティリティメトリクス(FORUM)を導入し,感情や話題の関連性,語彙の多様性,可読性などによるコメントの表示の優先順位付け方法に劇的な差異を見出した。 ジャーナリストは、カリキュラムとアルゴリズムの両方の手段を通じて、議論に多大な影響を及ぼすことができる。 これらの選択の意味を理解することは、特にオンライン談話における法的精査と社会的重要性の増大を考えると、ジャーナリストの目的と整合しながら、エンゲージメントと市民の議論を促進する上で不可欠である。

The disparity between news stories valued by journalists and those preferred by readers, known as the "News Gap", is well-documented. However, the difference in expectations regarding news related user-generated content is less studied. Comment sections, hosted by news websites, are popular venues for reader engagement, yet still subject to editorial decisions. It is thus important to understand journalist vs reader comment preferences and how these are served by various comment ranking algorithms that represent discussions differently. We analyse 1.2 million comments from Austrian newspaper Der Standard to understand the "News Comment Gap" and the effects of different ranking algorithms. We find that journalists prefer positive, timely, complex, direct responses, while readers favour comments similar to article content from elite authors. We introduce the versatile Feature-Oriented Ranking Utility Metric (FORUM) to assess the impact of different ranking algorithms and find dramatic differences in how they prioritise the display of comments by sentiment, topical relevance, lexical diversity, and readability. Journalists can exert substantial influence over the discourse through both curatorial and algorithmic means. Understanding these choices' implications is vital in fostering engaging and civil discussions while aligning with journalistic objectives, especially given the increasing legal scrutiny and societal importance of online discourse.
翻訳日:2024-08-26 17:21:03 公開日:2024-08-23
# 平面フォトニックデバイスへの原子蛍光集積

Atomic fluorescence collection into planar photonic devices ( http://arxiv.org/abs/2408.07068v2 )

ライセンス: Link先を確認
Orion Smedley, Vighnesh Natarajan, Oscar Jaramillo, Hamim Mahmud Rivy, Karan K. Mehta, (参考訳) 個々のエミッタからの蛍光収集は、多くの量子プラットフォームにおける基本機能である状態検出とリモート絡み合い生成において重要な役割を果たす。 平面フォトニクスは、閉じ込められたイオン系の堅牢でスケーラブルな対処のために実証されており、光子コレクションの相補的課題に対する類似した要素の考慮を動機付けている。 ここでは、相互性原理からの議論を用いて、遠距離場光子収集効率は、エミッタ位置のみでの収集光学に関連するフィールドで簡単に表現できることを示す。 我々は, 集束効率を, 焦点幅のパラメータでパラメータ化した理想の同軸および全ベクトル集束ガウスモードに算定し, さらに, より一般的なビームプロファイルを用いて, モデスト拡張の定量化を行い, 効率的な集束のための設計要件を確立する。 実用的な実装に向けて、我々は1つの導波路モードに0.25\%のコレクション効率を提供するよう予測された$\lambda=397$ nmの回折コレクション要素を設計し、製造し、特徴付ける。 より効率的な設計では、より要求の多い製造要求で1.14\%の価格が提供され、理想的なビームの予測限界に近づく改良されたデバイスへの道を示す。 本稿では,特に単純な集積導波路構成を,集積収集によって可能となる偏極型リモート絡み合わせ生成に用いていることを指摘する。

Fluorescence collection from individual emitters plays a key role in state detection and remote entanglement generation, fundamental functionalities in many quantum platforms. Planar photonics have been demonstrated for robust and scalable addressing of trapped-ion systems, motivating consideration of similar elements for the complementary challenge of photon collection. Here, using an argument from the reciprocity principle, we show that far-field photon collection efficiency can be simply expressed in terms of the fields associated with the collection optic at the emitter position alone. We calculate collection efficiencies into ideal paraxial and fully vectorial focused Gaussian modes parameterized in terms of focal waist, and further quantify the modest enhancements possible with more general beam profiles, establishing design requirements for efficient collection. Towards practical implementation, we design, fabricate, and characterize a diffractive collection element operating at $\lambda=397$ nm predicted to offer a total 0.25\% collection efficiency into a single waveguide mode. A more efficient design with more demanding fabrication requirements would offer $1.14\%$, and we indicate avenues to improved devices approaching the limits predicted for ideal beams. We point out a particularly simple integrated waveguide configuration for polarization-based remote entanglement generation enabled by integrated collection.
翻訳日:2024-08-26 17:10:58 公開日:2024-08-23
# パラ一貫性フレームワークにおける帰納的推論

Abductive Reasoning in a Paraconsistent Framework ( http://arxiv.org/abs/2408.07287v2 )

ライセンス: Link先を確認
Meghyn Bienvenu, Katsumi Inoue, Daniil Kozhemiachenko, (参考訳) パラ一貫性フレームワークを採用することにより、古典的に一貫性のない理論から始まる観察を説明する問題について検討する。 有名なBelnap--Dunnパラ一貫性の4値論理である $\mathsf{BD}$: $\mathsf{BD}_\circ$ は $\circ\phi$ ($\phi$に関する情報は信頼できる) の式を導入し、$\mathsf{BD}_\triangle$ は $\triangle\phi$'s で言語を増強する($\phi$ が真であるという情報もある)。 我々は、$\mathsf{BD}_\circ$ と $\mathsf{BD}_\triangle$ において、誘拐問題の概念と説明を定義し、それらが互いに再現できないことを示す。 我々は、両方の論理学において、標準的な帰納的推論タスク(解法認識、解法存在、仮説の関連性/必要性)の複雑さを分析する。 最後に、古典命題論理におけるアブダクションを$\mathsf{BD}_\circ$と$\mathsf{BD}_\triangle$で減算する方法を示し、既存の帰納的推論手順の再利用を可能にする。

We explore the problem of explaining observations starting from a classically inconsistent theory by adopting a paraconsistent framework. We consider two expansions of the well-known Belnap--Dunn paraconsistent four-valued logic $\mathsf{BD}$: $\mathsf{BD}_\circ$ introduces formulas of the form $\circ\phi$ (the information on $\phi$ is reliable), while $\mathsf{BD}_\triangle$ augments the language with $\triangle\phi$'s (there is information that $\phi$ is true). We define and motivate the notions of abduction problems and explanations in $\mathsf{BD}_\circ$ and $\mathsf{BD}_\triangle$ and show that they are not reducible to one another. We analyse the complexity of standard abductive reasoning tasks (solution recognition, solution existence, and relevance / necessity of hypotheses) in both logics. Finally, we show how to reduce abduction in $\mathsf{BD}_\circ$ and $\mathsf{BD}_\triangle$ to abduction in classical propositional logic, thereby enabling the reuse of existing abductive reasoning procedures.
翻訳日:2024-08-26 17:10:58 公開日:2024-08-23
# MathScape: 階層的ベンチマークによるマルチモーダル数学シナリオにおけるMLLMの評価

MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark ( http://arxiv.org/abs/2408.07543v3 )

ライセンス: Link先を確認
Minxuan Zhou, Hao Liang, Tianpeng Li, Zhiyu Wu, Mingan Lin, Linzhuang Sun, Yaqi Zhou, Yan Zhang, Xiaoqin Huang, Yicong Chen, Yujing Qiao, Weipeng Chen, Bin Cui, Wentao Zhang, Zenan Zhou, (参考訳) MLLM(Multimodal Large Language Models)の開発により,数学的問題におけるマルチモーダルモデルの評価が重要な研究分野となっている。 マルチモーダルな視覚・テクスチュアルな数学的推論は、MLLMの理解と複雑な多段階の定量的推論能力を評価する重要な指標となる。 しかし、従来のマルチモーダルなベンチマークでは、視覚情報とテキスト情報が十分に統合されていない。 このギャップに対処するため、我々は、視覚情報とテキスト情報を組み合わせた理解と応用を強調する新しいベンチマークであるMathScapeを提案しました。 MathScapeは、写真に基づく数学の問題シナリオを評価し、分類的階層的アプローチによってMLLMの理論的理解と応用能力を評価するように設計されている。 我々は11の高度MLLMに対して多次元評価を行い、最も洗練されたモデルでさえベンチマークが困難であることを明らかにした。 評価結果を解析することにより,MLLMの限界を識別し,モデルの性能向上に有用な知見を提供する。

With the development of Multimodal Large Language Models (MLLMs), the evaluation of multimodal models in the context of mathematical problems has become a valuable research field. Multimodal visual-textual mathematical reasoning serves as a critical indicator for evaluating the comprehension and complex multi-step quantitative reasoning abilities of MLLMs. However, previous multimodal math benchmarks have not sufficiently integrated visual and textual information. To address this gap, we proposed MathScape, a new benchmark that emphasizes the understanding and application of combined visual and textual information. MathScape is designed to evaluate photo-based math problem scenarios, assessing the theoretical understanding and application ability of MLLMs through a categorical hierarchical approach. We conduct a multi-dimensional evaluation on 11 advanced MLLMs, revealing that our benchmark is challenging even for the most sophisticated models. By analyzing the evaluation results, we identify the limitations of MLLMs, offering valuable insights for enhancing model performance.
翻訳日:2024-08-26 17:10:58 公開日:2024-08-23
# 人物認証: 人工知能とプライバシ保護ツールの価値

Personhood credentials: Artificial intelligence and the value of privacy-preserving tools to distinguish who is real online ( http://arxiv.org/abs/2408.07892v2 )

ライセンス: Link先を確認
Steven Adler, Zoë Hitzig, Shrey Jain, Catherine Brewer, Wayne Chang, Renée DiResta, Eddy Lazzarin, Sean McGregor, Wendy Seltzer, Divya Siddarth, Nouran Soliman, Tobin South, Connor Spelliscy, Manu Sporny, Varya Srivastava, John Bailey, Brian Christian, Andrew Critch, Ronnie Falcon, Heather Flanagan, Kim Hamilton Duffy, Eric Ho, Claire R. Leibowicz, Srikanth Nadhamuni, Alan Z. Rozenshtein, David Schnurr, Evan Shapiro, Lacey Strahm, Andrew Trask, Zoe Weinberg, Cedric Whitney, Tom Zick, (参考訳) 匿名性はオンラインの重要な原則である。 しかし、悪質な俳優は長年、不正行為、偽情報拡散、その他の偽造行為に誤認した身元を使っていた。 ますます有能なAIの出現により、悪役は彼らの活動の潜在的な規模と効果を増幅し、オンラインで匿名性と信頼性のバランスをとるという課題を強化することができる。 本稿では,この課題に対処する新たなツールの価値を分析する。個人認証(PHC) – 個人情報を開示することなく,ユーザが実際の人間(AIではなく)であることをオンラインサービスに示すためのデジタル認証情報である。 このような資格は、様々な信頼できる機関、政府、その他の機関によって発行することができる。 我々の定義によれば、PHCシステムは局所的あるいはグローバル的であり、バイオメトリックスに基づくものではない。 AIのオンラインの人々(ライフライクなコンテンツやアバター、エージェント活動)からの差別化可能性の増加と、AIのスケーラビリティの増大(コスト効率、アクセシビリティ)である。 匿名認証と「人格保護」システムに関する長い研究の歴史に基づいて、人格認証は、オンラインプラットフォーム上での信頼感を示す手段を提供し、サービス提供者が悪役による誤用を減らすための新しいツールを提供する。 対照的に、CAPTCHAのような自動偽造に対する既存の対策は、高度なAIに対して不十分であり、厳格なアイデンティティ検証ソリューションは多くのユースケースで不十分にプライベートである。 人格認証のメリットを調査した後、デプロイメントのリスクや設計上の課題についても検討する。 我々は、政策立案者、技術者、および標準機関が一般との協議で検討すべき、実用的な次のステップで締めくくります。

Anonymity is an important principle online. However, malicious actors have long used misleading identities to conduct fraud, spread disinformation, and carry out other deceptive schemes. With the advent of increasingly capable AI, bad actors can amplify the potential scale and effectiveness of their operations, intensifying the challenge of balancing anonymity and trustworthiness online. In this paper, we analyze the value of a new tool to address this challenge: "personhood credentials" (PHCs), digital credentials that empower users to demonstrate that they are real people -- not AIs -- to online services, without disclosing any personal information. Such credentials can be issued by a range of trusted institutions -- governments or otherwise. A PHC system, according to our definition, could be local or global, and does not need to be biometrics-based. Two trends in AI contribute to the urgency of the challenge: AI's increasing indistinguishability from people online (i.e., lifelike content and avatars, agentic activity), and AI's increasing scalability (i.e., cost-effectiveness, accessibility). Drawing on a long history of research into anonymous credentials and "proof-of-personhood" systems, personhood credentials give people a way to signal their trustworthiness on online platforms, and offer service providers new tools for reducing misuse by bad actors. In contrast, existing countermeasures to automated deception -- such as CAPTCHAs -- are inadequate against sophisticated AI, while stringent identity verification solutions are insufficiently private for many use-cases. After surveying the benefits of personhood credentials, we also examine deployment risks and design challenges. We conclude with actionable next steps for policymakers, technologists, and standards bodies to consider in consultation with the public.
翻訳日:2024-08-26 17:10:58 公開日:2024-08-23
# パーソナライズによるフェデレーションプロトタイプ整形によるスキュード不均一性への対処

Addressing Skewed Heterogeneity via Federated Prototype Rectification with Personalization ( http://arxiv.org/abs/2408.07966v2 )

ライセンス: Link先を確認
Shunxin Guo, Hongsong Wang, Shuxia Lin, Zhiqiang Kou, Xin Geng, (参考訳) フェデレートラーニング(Federated Learning)は、ユーザデータのプライバシを保持しながら、複数の分散デバイス間の協調的なモデルトレーニングを容易にするために設計された、効率的なフレームワークである。 連合学習の重要な課題は、データレベルの不均一性、すなわち、スキュードまたはロングテールのプライベートデータの分散である。 この課題に対処するために様々な方法が提案されているが、その多くは、基礎となるグローバルデータが全クライアントに均一に分散されていると仮定している。 本稿では,データレベルの不均一性フェデレート学習を簡単なレビューで検討し,Skewed Heterogeneous Federated Learning (SHFL) と呼ばれる,より実践的で困難な設定を再定義する。 そこで我々は,フェデレート・パーソナライゼーションとフェデレーション・プロトタイプ・レクティフィケーションの2つの部分からなる,フェデレーション・プロトタイプ・レクティフィケーション(Federated Prototype Rectification)を提案する。 前者は、私的データに基づいて、支配階級と少数民族の間のバランスのとれた決定境界を構築することを目的としており、後者は、経験的プロトタイプの修正のために、階級間差別と階級内一貫性の両方を活用している。 3つの人気のあるベンチマーク実験により、提案手法は現在の最先端手法よりも優れ、パーソナライズと一般化の両面でバランスの取れた性能を達成することが示された。

Federated learning is an efficient framework designed to facilitate collaborative model training across multiple distributed devices while preserving user data privacy. A significant challenge of federated learning is data-level heterogeneity, i.e., skewed or long-tailed distribution of private data. Although various methods have been proposed to address this challenge, most of them assume that the underlying global data is uniformly distributed across all clients. This paper investigates data-level heterogeneity federated learning with a brief review and redefines a more practical and challenging setting called Skewed Heterogeneous Federated Learning (SHFL). Accordingly, we propose a novel Federated Prototype Rectification with Personalization which consists of two parts: Federated Personalization and Federated Prototype Rectification. The former aims to construct balanced decision boundaries between dominant and minority classes based on private data, while the latter exploits both inter-class discrimination and intra-class consistency to rectify empirical prototypes. Experiments on three popular benchmarks show that the proposed approach outperforms current state-of-the-art methods and achieves balanced performance in both personalization and generalization.
翻訳日:2024-08-26 17:10:58 公開日:2024-08-23
# ABQ-LLM:大規模言語モデルのための任意ビット量子化推論高速化

ABQ-LLM: Arbitrary-Bit Quantized Inference Acceleration for Large Language Models ( http://arxiv.org/abs/2408.08554v2 )

ライセンス: Link先を確認
Chao Zeng, Songwei Liu, Yusheng Xie, Hong Liu, Xiaojian Wang, Miao Wei, Shu Yang, Fangmin Chen, Xing Mei, (参考訳) 大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。 しかし、それらの実践的応用は、かなりのメモリと計算要求に制約されている。 後学習量子化(PTQ)はLLM推論を加速する有効な方法と考えられている。 LLMモデル圧縮の人気が高まっているにもかかわらず、PTQデプロイメントは2つの大きな課題に直面している。 第一に、低ビット量子化は性能を低下させる。 第二に、GPU上の限定整数演算ユニットタイプによって制限されているため、精度の異なる量子化行列演算を効果的に高速化することはできない。 これらの問題に対処するために、新しい任意のビット量子化アルゴリズムと推論フレームワークであるABQ-LLMを導入する。 様々な量子化設定において優れた性能を実現し、GPU上で効率的な任意の精度の量子化推論を可能にする。 ABQ-LLMは、(1)ウェイトとアクティベーションの完全量子化による分布差を緩和し、低ビット幅での性能を向上させる変圧器ブロックの分布補正手法を導入している。 2) 極低ビット幅 (eg, 2-bit) における非対称分布問題から性能劣化に対処するためのビットバランス戦略について検討した。 3) BTC(Binary TensorCore)の等価値に基づく任意の精度の組み合わせの量子化行列乗算を再構築する革新的な量子化加速フレームワークは、INT4/INT8演算ユニットの制限を取り除く。 ABQ-LLMは、各コンポーネントビット幅ゲインを実際の加速度ゲインに変換し、混合精度(例えば、W6A6、W2A8)で性能を最大化する。 LLaMA-7BモデルのW2*A8量子化構成に基づいて、7.59(AffineQuantの2.17$\downarrow $対9.76)のWikiText2パープレクシリティを達成した。 SmoothQuantと比較して、1.6$\times$Acceleration Improvementと2.7$\times$Memory compression gainを実現しました。

Large Language Models (LLMs) have revolutionized natural language processing tasks. However, their practical application is constrained by substantial memory and computational demands. Post-training quantization (PTQ) is considered an effective method to accelerate LLM inference. Despite its growing popularity in LLM model compression, PTQ deployment faces two major challenges. First, low-bit quantization leads to performance degradation. Second, restricted by the limited integer computing unit type on GPUs, quantized matrix operations with different precisions cannot be effectively accelerated. To address these issues, we introduce a novel arbitrary-bit quantization algorithm and inference framework, ABQ-LLM. It achieves superior performance across various quantization settings and enables efficient arbitrary-precision quantized inference on the GPU. ABQ-LLM introduces several key innovations: (1) a distribution correction method for transformer blocks to mitigate distribution differences caused by full quantization of weights and activations, improving performance at low bit-widths. (2) the bit balance strategy to counteract performance degradation from asymmetric distribution issues at very low bit-widths (e.g., 2-bit). (3) an innovative quantization acceleration framework that reconstructs the quantization matrix multiplication of arbitrary precision combinations based on BTC (Binary TensorCore) equivalents, gets rid of the limitations of INT4/INT8 computing units. ABQ-LLM can convert each component bit width gain into actual acceleration gain, maximizing performance under mixed precision(e.g., W6A6, W2A8). Based on W2*A8 quantization configuration on LLaMA-7B model, it achieved a WikiText2 perplexity of 7.59 (2.17$\downarrow $ vs 9.76 in AffineQuant). Compared to SmoothQuant, we realized 1.6$\times$ acceleration improvement and 2.7$\times$ memory compression gain.
翻訳日:2024-08-26 17:10:58 公開日:2024-08-23
# S$^3$Attention: Smoothed Skeleton Sketching によるLong Sequence Attentionの改善

S$^3$Attention: Improving Long Sequence Attention with Smoothed Skeleton Sketching ( http://arxiv.org/abs/2408.08567v2 )

ライセンス: Link先を確認
Xue Wang, Tian Zhou, Jianqing Zhu, Jialin Liu, Kun Yuan, Tao Yao, Wotao Yin, Rong Jin, HanQin Cai, (参考訳) 注意に基づくモデルは、多くのアプリケーションで多くの顕著なブレークスルーを達成した。 しかし、注意の二次的な複雑さは、バニラ注意に基づくモデルが長い連続タスクに適用しにくくする。 低ランク化を誘導し、列全体をサブシーケンスで近似することにより計算コストを削減するために、様々な改良された注意構造を提案する。 これらのアプローチの最も難しい部分は、情報保存と計算の削減の間の適切なバランスを維持することである。 本稿では,S$^3$Attentionというスムーズなスケルトンスケッチに基づくアテンション構造を提案する。 S$3$Attentionは、長い列に情報を混ぜる滑らかなブロックと、入力行列から列と行を同時に選択する行列スケッチという2つのメカニズムを持つ。 S$^3$Attentionの有効性を理論的にも経験的にも検証する。 ロングレンジ・アリーナ(LRA)データセットと6つの時系列予測に関する広範な研究は、S$^3$Attentionがバニラ・アテンションと他の最先端のアテンション構造の両方を著しく上回っていることを示している。

Attention based models have achieved many remarkable breakthroughs in numerous applications. However, the quadratic complexity of Attention makes the vanilla Attention based models hard to apply to long sequence tasks. Various improved Attention structures are proposed to reduce the computation cost by inducing low rankness and approximating the whole sequence by sub-sequences. The most challenging part of those approaches is maintaining the proper balance between information preservation and computation reduction: the longer sub-sequences used, the better information is preserved, but at the price of introducing more noise and computational costs. In this paper, we propose a smoothed skeleton sketching based Attention structure, coined S$^3$Attention, which significantly improves upon the previous attempts to negotiate this trade-off. S$^3$Attention has two mechanisms to effectively minimize the impact of noise while keeping the linear complexity to the sequence length: a smoothing block to mix information over long sequences and a matrix sketching method that simultaneously selects columns and rows from the input matrix. We verify the effectiveness of S$^3$Attention both theoretically and empirically. Extensive studies over Long Range Arena (LRA) datasets and six time-series forecasting show that S$^3$Attention significantly outperforms both vanilla Attention and other state-of-the-art variants of Attention structures.
翻訳日:2024-08-26 17:10:58 公開日:2024-08-23
# Classifier-Free GuidanceはPredictor-Correctorである

Classifier-Free Guidance is a Predictor-Corrector ( http://arxiv.org/abs/2408.09000v2 )

ライセンス: Link先を確認
Arwen Bradley, Preetum Nakkiran, (参考訳) 分類器フリーガイダンス(CFG)の理論的基礎について検討する。 CFGはテキスト・画像拡散モデルにおける条件付きサンプリングの主流の手法であるが、他の拡散の側面とは異なり、不安定な理論的な足場に留まっている。 本稿では,CFG が DDPM (Ho et al , 2020) と DDIM (Song et al , 2021) と異なる相互作用を示すこと,および CFG のサンプリング器が γ を用いた分布 $p(x|c)^\gamma p(x)^{1-\gamma}$ を生成できないこと,といった一般的な誤解を解消する。 そこで,我々はCFGの行動を明らかにするために,予測コレクター法(Song et al , 2020)の一種であり,デノイングとシャープニングを交互に行うことを示し,これを予測コレクターガイダンス(PCG)と呼ぶ。 SDE の極限において、CFG は実際に条件分布の DDIM 予測器とガンマ動力分布のランゲヴィン力学補正器(慎重に選択されたガンマ)とを結合するものであることを証明している。 そこで本研究は,CFGを原理的サンプリング手法のより広い設計空間に埋め込むことで,理論的にCFGを理解するためのレンズを提供する。

We investigate the theoretical foundations of classifier-free guidance (CFG). CFG is the dominant method of conditional sampling for text-to-image diffusion models, yet unlike other aspects of diffusion, it remains on shaky theoretical footing. In this paper, we disprove common misconceptions, by showing that CFG interacts differently with DDPM (Ho et al., 2020) and DDIM (Song et al., 2021), and neither sampler with CFG generates the gamma-powered distribution $p(x|c)^\gamma p(x)^{1-\gamma}$. Then, we clarify the behavior of CFG by showing that it is a kind of predictor-corrector method (Song et al., 2020) that alternates between denoising and sharpening, which we call predictor-corrector guidance (PCG). We prove that in the SDE limit, CFG is actually equivalent to combining a DDIM predictor for the conditional distribution together with a Langevin dynamics corrector for a gamma-powered distribution (with a carefully chosen gamma). Our work thus provides a lens to theoretically understand CFG by embedding it in a broader design space of principled sampling methods.
翻訳日:2024-08-26 17:10:58 公開日:2024-08-23
# GNNを用いたグラフ分類:最適化,表現,誘導バイアス

Graph Classification with GNNs: Optimisation, Representation and Inductive Bias ( http://arxiv.org/abs/2408.09266v2 )

ライセンス: Link先を確認
P. Krishna Kumar a, Harish G. Ramaswamy, (参考訳) GNNの表現力に関する理論的研究は、グラフ同型を検出するためにWL-Testsを用いて、GNNの同値性を理解することに集中している。 本稿では、そのような等価性は、付随する最適化問題を無視するものであり、GNN学習プロセスの全体像を提供するものではないと論じる。 本稿では、これらの表現と最適化のギャップを例と実験で説明する。 また、グラフ分類タスクの文脈において、GNNにおける暗黙的帰納バイアス(例えば、完全連結ネットワークは入力空間で低周波関数を学習することを好む)の存在についても検討する。 さらに、グラフ内のメッセージパッシング層は、使用する異なるグローバルプーリング層に依存して、識別サブグラフまたはグラフ全体に分散する識別ノードの集合を探索する傾向にあることを理論的に証明する。 実世界および合成データセット上での実験を通して、このバイアスを実証的に検証する。 最後に、我々の研究は、注目に基づくアーキテクチャを通してドメイン知識を取り入れ、コヒーレントなサブグラフを識別する能力を高めるのにどのように役立つかを示す。

Theoretical studies on the representation power of GNNs have been centered around understanding the equivalence of GNNs, using WL-Tests for detecting graph isomorphism. In this paper, we argue that such equivalence ignores the accompanying optimization issues and does not provide a holistic view of the GNN learning process. We illustrate these gaps between representation and optimization with examples and experiments. We also explore the existence of an implicit inductive bias (e.g. fully connected networks prefer to learn low frequency functions in their input space) in GNNs, in the context of graph classification tasks. We further prove theoretically that the message-passing layers in the graph, have a tendency to search for either discriminative subgraphs, or a collection of discriminative nodes dispersed across the graph, depending on the different global pooling layers used. We empirically verify this bias through experiments over real-world and synthetic datasets. Finally, we show how our work can help in incorporating domain knowledge via attention based architectures, and can evince their capability to discriminate coherent subgraphs.
翻訳日:2024-08-26 17:10:58 公開日:2024-08-23
# ネパール語における音声のクローン化の促進:低リソース言語における転送学習の活用

Advancing Voice Cloning for Nepali: Leveraging Transfer Learning in a Low-Resource Language ( http://arxiv.org/abs/2408.10128v2 )

ライセンス: Link先を確認
Manjil Karki, Pratik Shakya, Sandesh Acharya, Ravi Pandit, Dinesh Gothe, (参考訳) 音声のクローン化は、パーソナライズされた音声インタフェースにおいて顕著な特徴である。 ニューラル・ボーカル・クローンシステムは、ほんの少しのオーディオサンプルを使って誰かの声を模倣することができる。 話者符号化と話者適応は、音声クローニングの分野での研究のトピックである。 話者適応は、話者符号化に使用される新しい話者埋め込みを推論するために、個別のモデルを訓練する多話者生成モデルを微調整することに依存する。 どちらの手法も、音声の自然さと元の話者との類似性の観点から、少数のクローン音声であっても、優れた性能を達成することができる。 話者エンコーディングアプローチは、メモリを著しく少なくし、話者適応よりも高速なクローニング時間を持つため、低リソースデプロイメントに適している。 主な目標は、ネパール語のアクセントやネパール語の発音で音声を出力する音声クローニングシステムを作ることだ。 TTSのさらなる進歩のために、トランスファーラーニングというアイデアは、低音質やデータ不足など、このシステムの開発で遭遇したいくつかの問題に効果的に対処するために用いられた。

Voice cloning is a prominent feature in personalized speech interfaces. A neural vocal cloning system can mimic someone's voice using just a few audio samples. Both speaker encoding and speaker adaptation are topics of research in the field of voice cloning. Speaker adaptation relies on fine-tuning a multi-speaker generative model, which involves training a separate model to infer a new speaker embedding used for speaker encoding. Both methods can achieve excellent performance, even with a small number of cloning audios, in terms of the speech's naturalness and similarity to the original speaker. Speaker encoding approaches are more appropriate for low-resource deployment since they require significantly less memory and have a faster cloning time than speaker adaption, which can offer slightly greater naturalness and similarity. The main goal is to create a vocal cloning system that produces audio output with a Nepali accent or that sounds like Nepali. For the further advancement of TTS, the idea of transfer learning was effectively used to address several issues that were encountered in the development of this system, including the poor audio quality and the lack of available data.
翻訳日:2024-08-26 17:10:58 公開日:2024-08-23
# DBHP:派生型ハイブリッド予測を用いた多エージェントスポーツにおける軌道インパテーション

DBHP: Trajectory Imputation in Multi-Agent Sports Using Derivative-Based Hybrid Prediction ( http://arxiv.org/abs/2408.10878v2 )

ライセンス: Link先を確認
Hanjun Choi, Hyunsung Kim, Minho Lee, Chang-Jo Kim, Jinsung Yoon, Sang-Ki Ko, (参考訳) 多くの時空間領域はマルチエージェント軌道データを扱うが、現実のシナリオでは、収集された軌道データは様々な理由により部分的に欠落することが多い。 既存の手法は軌道計算において優れた性能を示すが、現実的な軌道を統治する物理的制約の欠如によりエージェント間の複雑な力学や相互作用を捉えることの難しさに直面する。 この問題に対処するために,複数エージェントの欠落した軌跡を効果的に説明できるDBHPフレームワークを提案する。 第一に、Set Transformersを備えたニューラルネットワークは、入力エージェントの順序の順で置換等価性を満足しつつ、損失軌跡の単純予測を生成する。 そして、このフレームワークは速度と加速度情報を利用した代替予測を行い、全ての予測と適切に決定された重みを組み合わせ、最終的なインプット軌道を提供する。 このようにして、提案するフレームワークは位置、速度、加速度の値を正確に予測するだけでなく、それらの物理的関係を強制し、最終的に予測された軌道の精度と自然性の両方を改善する。 そこで,チームスポーツにおける打楽器の軌跡に関する実験結果から,我々の枠組みは既存の打楽器のベースラインを大きく上回っていることがわかった。

Many spatiotemporal domains handle multi-agent trajectory data, but in real-world scenarios, collected trajectory data are often partially missing due to various reasons. While existing approaches demonstrate good performance in trajectory imputation, they face challenges in capturing the complex dynamics and interactions between agents due to a lack of physical constraints that govern realistic trajectories, leading to suboptimal results. To address this issue, the paper proposes a Derivative-Based Hybrid Prediction (DBHP) framework that can effectively impute multiple agents' missing trajectories. First, a neural network equipped with Set Transformers produces a naive prediction of missing trajectories while satisfying the permutation-equivariance in terms of the order of input agents. Then, the framework makes alternative predictions leveraging velocity and acceleration information and combines all the predictions with properly determined weights to provide final imputed trajectories. In this way, our proposed framework not only accurately predicts position, velocity, and acceleration values but also enforces the physical relationship between them, eventually improving both the accuracy and naturalness of the predicted trajectories. Accordingly, the experiment results about imputing player trajectories in team sports show that our framework significantly outperforms existing imputation baselines.
翻訳日:2024-08-26 17:10:58 公開日:2024-08-23
# AppAgent v2: 柔軟なモバイルインタラクションのための高度なエージェント

AppAgent v2: Advanced Agent for Flexible Mobile Interactions ( http://arxiv.org/abs/2408.11824v2 )

ライセンス: Link先を確認
Yanda Li, Chi Zhang, Wanqi Yang, Bin Fu, Pei Cheng, Xin Chen, Ling Chen, Yunchao Wei, (参考訳) MLLM(Multimodal Large Language Models)の進歩に伴い、LLM駆動の視覚エージェントはソフトウェアインターフェース、特にグラフィカルユーザインタフェースにますます影響を与えている。 本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。 モバイルデバイスをナビゲートできるこのフレームワークは、人間のようなインタラクションをエミュレートする。 エージェントはフレキシブルなアクション空間を構築し,パーサやテキスト,ビジョン記述など,さまざまなアプリケーションに適用性を高める。 エージェントは、探索と展開の2つの主要なフェーズを通して運用される。 探索段階において、ユーザインターフェイス要素の機能については、エージェント駆動または手動で、カスタマイズされた構造化された知識ベースへの探索を通じて文書化される。 展開段階において、RAG技術は、この知識ベースからの効率的な検索と更新を可能にし、エージェントが効率的にかつ正確にタスクを実行することを可能にする。 これには、さまざまなアプリケーションにわたる複雑なマルチステップ操作の実行が含まれており、カスタマイズされたタスクワークフローの処理におけるフレームワークの適応性と正確性を示す。 各種ベンチマークによる実験結果から,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。 私たちのコードはまもなくオープンソースになります。

With the advancement of Multimodal Large Language Models (MLLM), LLM-driven visual agents are increasingly impacting software interfaces, particularly those with graphical user interfaces. This work introduces a novel LLM-based multimodal agent framework for mobile devices. This framework, capable of navigating mobile devices, emulates human-like interactions. Our agent constructs a flexible action space that enhances adaptability across various applications including parser, text and vision descriptions. The agent operates through two main phases: exploration and deployment. During the exploration phase, functionalities of user interface elements are documented either through agent-driven or manual explorations into a customized structured knowledge base. In the deployment phase, RAG technology enables efficient retrieval and update from this knowledge base, thereby empowering the agent to perform tasks effectively and accurately. This includes performing complex, multi-step operations across various applications, thereby demonstrating the framework's adaptability and precision in handling customized task workflows. Our experimental results across various benchmarks demonstrate the framework's superior performance, confirming its effectiveness in real-world scenarios. Our code will be open source soon.
翻訳日:2024-08-26 17:10:58 公開日:2024-08-23
# 群集モニタリングのための非構造高密度群集シーンの解析

Analysis of Unstructured High-Density Crowded Scenes for Crowd Monitoring ( http://arxiv.org/abs/2408.11836v2 )

ライセンス: Link先を確認
Alexandre Matov, (参考訳) 我々は,人群集の組織的動きを検出する自動システムの開発に興味がある。 コンピュータビジョンアルゴリズムは、混雑したシーンのビデオから情報を抽出し、紛争回避の文脈で異常な振る舞いを示す組織的な動きを行う個人のグループを自動的に検出し追跡する。 本システムでは,ランダムに移動する物体の背景に対する組織的コホートの検出が可能であり,CCTVで撮影された動きの開始から1秒未満の3~4コホート内で,組織的コホートにおける参加者数,動きの速度と方向をリアルタイムで推定することができる。 我々は,この状況下で,1フレームあたり最大4万個のオブジェクトを含む生体細胞データを用いて予備解析を行い,これを100倍まで数値的に拡張して公衆安全に適用する。 我々は、既存のビデオカメラのインフラを活用して、スポーツスタジアムなどの公共施設内外で撮影された画像シーケンスを分析し、重要なイベントを解析するための、画像データセットのオンザフライ取得と、使い易いデータ駆動ソフトウェアシステムの展開をめざす。 その他の有望なユーザは、政治集会、市民と野生生物の組織、セキュリティ会社、軍隊の組織である。 脅威を呈するアクティビティと、脅威を呈しないアクティビティを区別できる分類方法を実装することにより、ソフトウェアの性能を最適化する。

We are interested in developing an automated system for detection of organized movements in human crowds. Computer vision algorithms can extract information from videos of crowded scenes and automatically detect and track groups of individuals undergoing organized motion that represents an anomalous behavior in the context of conflict aversion. Our system can detect organized cohorts against the background of randomly moving objects and we can estimate the number of participants in an organized cohort, the speed and direction of motion in real time, within three to four video frames, which is less than one second from the onset of motion captured on a CCTV. We have performed preliminary analysis in this context in biological cell data containing up to four thousand objects per frame and will extend this numerically to a hundred-fold for public safety applications. We envisage using the existing infrastructure of video cameras for acquiring image datasets on-the-fly and deploying an easy-to-use data-driven software system for parsing of significant events by analyzing image sequences taken inside and outside of sports stadiums or other public venues. Other prospective users are organizers of political rallies, civic and wildlife organizations, security firms, and the military. We will optimize the performance of the software by implementing a classification method able to distinguish between activities posing a threat and those not posing a threat.
翻訳日:2024-08-26 17:10:58 公開日:2024-08-23
# フェデレートラーニングと自動ラベリングによる自動車環境意識の向上

Enhancing Vehicle Environmental Awareness via Federated Learning and Automatic Labeling ( http://arxiv.org/abs/2408.12769v1 )

ライセンス: Link先を確認
Chih-Yu Lin, Jin-Wei Liang, (参考訳) 自動車の環境意識は道路の安全を改善する上で重要な問題である。 さまざまなセンサーと車両間通信によって、車両は豊富なデータを収集できる。 しかし、これらのデータを有用にするためには、センサーデータを効果的に統合する必要がある。 本稿では、画像データと車車間通信データの統合に焦点を当てる。 具体的には、画像内のメッセージを送信する車両の位置を特定することを目的としています。 本稿では,車両識別問題に対処するために,教師付き学習モデルを用いる。 第一に、ドライバは通常、プライバシに敏感なイメージデータを共有したくない、第二に、ドライバは通常、データラベリングに関与しない、という2つの実践的な問題に直面しています。 これらの課題に対処するために、上記の教師付き学習モデルと組み合わせて、フェデレーションラーニングと自動ラベリング技術を活用する車両識別問題に対する包括的解決策を提案する。 提案手法の有効性を実験により検証した。

Vehicle environmental awareness is a crucial issue in improving road safety. Through a variety of sensors and vehicle-to-vehicle communication, vehicles can collect a wealth of data. However, to make these data useful, sensor data must be integrated effectively. This paper focuses on the integration of image data and vehicle-to-vehicle communication data. More specifically, our goal is to identify the locations of vehicles sending messages within images, a challenge termed the vehicle identification problem. In this paper, we employ a supervised learning model to tackle the vehicle identification problem. However, we face two practical issues: first, drivers are typically unwilling to share privacy-sensitive image data, and second, drivers usually do not engage in data labeling. To address these challenges, this paper introduces a comprehensive solution to the vehicle identification problem, which leverages federated learning and automatic labeling techniques in combination with the aforementioned supervised learning model. We have validated the feasibility of our proposed approach through experiments.
翻訳日:2024-08-26 16:28:47 公開日:2024-08-23
# 対称マスキングによるマスク画像モデリングの性能向上

Symmetric masking strategy enhances the performance of Masked Image Modeling ( http://arxiv.org/abs/2408.12772v1 )

ライセンス: Link先を確認
Khanh-Binh Nguyen, Chae Jung Park, (参考訳) Masked Image Modeling (MIM) は、ランダムにマスキングされた部分の欠落したピクセルを推定することにより、ラベルのない画像から詳細な視覚表現を取得することに焦点を当てた自己教師あり学習のテクニックである。 視覚変換器(ViT)の予備訓練のための強力なツールであることが証明されており、様々なタスクで印象的な結果が得られる。 それでも、ほとんどのMIMメソッドは、プリテキストタスクを定式化するためのランダムマスキング戦略に大きく依存している。 この戦略は、資源集約的な最適降下比を確認するために多くの試行が必要であり、800から1600年代にかけて、モデルが事前訓練される必要がある。 さらに、このアプローチはすべてのデータセットに適していないかもしれない。 本研究では,グローバルな特徴とローカルな特徴を効果的に捕捉する新しいマスキング戦略を提案する。 このマスキング戦略であるSymMIMに基づいて,MIMのためのトレーニングパイプラインを提案する。 SymMIMは、ViT-Largeを使用してImageNet上で85.9\%の新しいSOTA精度を実現し、画像分類、セマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーションタスクなどの下流タスクで以前のSOTAを上回っている。

Masked Image Modeling (MIM) is a technique in self-supervised learning that focuses on acquiring detailed visual representations from unlabeled images by estimating the missing pixels in randomly masked sections. It has proven to be a powerful tool for the preliminary training of Vision Transformers (ViTs), yielding impressive results across various tasks. Nevertheless, most MIM methods heavily depend on the random masking strategy to formulate the pretext task. This strategy necessitates numerous trials to ascertain the optimal dropping ratio, which can be resource-intensive, requiring the model to be pre-trained for anywhere between 800 to 1600 epochs. Furthermore, this approach may not be suitable for all datasets. In this work, we propose a new masking strategy that effectively helps the model capture global and local features. Based on this masking strategy, SymMIM, our proposed training pipeline for MIM is introduced. SymMIM achieves a new SOTA accuracy of 85.9\% on ImageNet using ViT-Large and surpasses previous SOTA across downstream tasks such as image classification, semantic segmentation, object detection, instance segmentation tasks, and so on.
翻訳日:2024-08-26 16:19:03 公開日:2024-08-23
# ランク付け学習と合意に基づく擬似ラベリングによる半教師付き変分適応型アクティブラーニング

Semi-Supervised Variational Adversarial Active Learning via Learning to Rank and Agreement-Based Pseudo Labeling ( http://arxiv.org/abs/2408.12774v1 )

ライセンス: Link先を確認
Zongyao Lyu, William J. Beksi, (参考訳) アクティブラーニングは、取得機能を介してラベルなしサンプルの選択を自動化することにより、データラベリングに関わる労力を軽減することを目的としている。 例えば、VAAL (variantal adversarial active learning) は、ラベル付きサンプルとラベル付きサンプルを潜在空間情報を用いて識別するために、敵ネットワークを利用する。 しかし、VAALには以下の欠点がある。 (i)ターゲットタスク情報を活用せず、 (ii) ラベルなしデータはモデルトレーニングではなくサンプル選択にのみ使用される。 これらの制約に対処するために、トレーニング中に豊富なラベルのないデータの使用を大幅に改善する新しい手法を導入し、タスク情報を考慮に入れます。 具体的には,改良された擬似ラベル付けアルゴリズムを提案する。このアルゴリズムは,半教師付きでラベル付けされていないすべてのデータから情報を活用し,よりリッチなデータ空間を探索することを可能にする。 さらに、予測された相対的なランキング情報を異なるランキングに変換するランキングベースの損失予測モジュールを開発する。 この損失は変分オートエンコーダの潜伏空間に階数変数として埋め込むことができ、サンプル選択のために逆方向の判別器で訓練することができる。 様々な画像分類とセグメンテーション・ベンチマーク・データセットにおける最先端技術に対する我々のアプローチの優れた性能を実証する。

Active learning aims to alleviate the amount of labor involved in data labeling by automating the selection of unlabeled samples via an acquisition function. For example, variational adversarial active learning (VAAL) leverages an adversarial network to discriminate unlabeled samples from labeled ones using latent space information. However, VAAL has the following shortcomings: (i) it does not exploit target task information, and (ii) unlabeled data is only used for sample selection rather than model training. To address these limitations, we introduce novel techniques that significantly improve the use of abundant unlabeled data during training and take into account the task information. Concretely, we propose an improved pseudo-labeling algorithm that leverages information from all unlabeled data in a semi-supervised manner, thus allowing a model to explore a richer data space. In addition, we develop a ranking-based loss prediction module that converts predicted relative ranking information into a differentiable ranking loss. This loss can be embedded as a rank variable into the latent space of a variational autoencoder and then trained with a discriminator in an adversarial fashion for sample selection. We demonstrate the superior performance of our approach over the state of the art on various image classification and segmentation benchmark datasets.
翻訳日:2024-08-26 16:19:03 公開日:2024-08-23
# 半導体製造のための知的OPC技術者アシスタント

Intelligent OPC Engineer Assistant for Semiconductor Manufacturing ( http://arxiv.org/abs/2408.12775v1 )

ライセンス: Link先を確認
Guojin Chen, Haoyu Yang, Haoxing Ren, Bei Yu, (参考訳) チップ設計と製造の進歩は、ディープラーニングや自然言語処理といった複雑なタスクの処理を可能にし、人工知能(AGI)の開発への道を開いた。 一方、AIは、計画と実装から製造まで半導体技術の革新と合理化に活用することができる。 本稿では、光学近接補正(OPC)として知られる中核的な製造・認識最適化問題を解決するために、AI/LLMを利用した手法である「textit{Intelligent OPC Engineer Assistant」を提案する。 本手法は、強化学習に基づくOPCレシピ検索と、レシピ要約のためのカスタマイズされたマルチモーダルエージェントシステムを含む。 実験により,提案手法は設計トポロジを特別に処理した様々なチップ設計上で効率的にOPCレシピを構築できることが実証された。

Advancements in chip design and manufacturing have enabled the processing of complex tasks such as deep learning and natural language processing, paving the way for the development of artificial general intelligence (AGI). AI, on the other hand, can be leveraged to innovate and streamline semiconductor technology from planning and implementation to manufacturing. In this paper, we present \textit{Intelligent OPC Engineer Assistant}, an AI/LLM-powered methodology designed to solve the core manufacturing-aware optimization problem known as optical proximity correction (OPC). The methodology involves a reinforcement learning-based OPC recipe search and a customized multi-modal agent system for recipe summarization. Experiments demonstrate that our methodology can efficiently build OPC recipes on various chip designs with specially handled design topologies, a task that typically requires the full-time effort of OPC engineers with years of experience.
翻訳日:2024-08-26 16:19:03 公開日:2024-08-23
# 環境中心のアクティブ推論

Environment-Centric Active Inference ( http://arxiv.org/abs/2408.12777v1 )

ライセンス: Link先を確認
Kanako Esaki, Tadayuki Matsumura, Takeshi Kato, Shunsuke Minusa, Yang Shao, Hiroyuki Mizuno, (参考訳) エージェントによる環境の意図せぬ変化に対処するため,環境中心のアクティブ推論EC-AIFを提案し,その環境からアクティブ推論のマルコフブランケットを定義する。 通常の能動推論では、マルコフ・ブランケットはエージェントから始まる。 すなわち,まずエージェントをロボットや人などの「行動」を行うエンティティとして定義し,その環境をエージェントの「行動」に直接影響される他者や物体として定義し,エージェントと環境の境界をマルコフ・ブランケットとして定義した。 このエージェント中心の定義は、エージェントが定義された環境外の要因によって引き起こされる意図しない環境の変化に応答することを許さない。 提案したEC-AIFでは、エージェントに対応するエンティティは存在しない。 環境には、従来の環境と見なされる人や物、ロボットや人間のような「行動」を行う実体を含む、あらゆる観察可能なものが含まれる。 したがって、ロボットや人間を含む全ての状態が推論対象に含まれており、意図しない環境の変化を排除している。 EC-AIFはロボットアームに適用され、ロボットアームによる物体輸送タスクで検証された。 その結果、ロボットアームは対象物の目標位置の変化と、他のロボットアームの向きの変化に反応しながら、物体の移動に成功した。

To handle unintended changes in the environment by agents, we propose an environment-centric active inference EC-AIF in which the Markov Blanket of active inference is defined starting from the environment. In normal active inference, the Markov Blanket is defined starting from the agent. That is, first the agent was defined as the entity that performs the "action" such as a robot or a person, then the environment was defined as other people or objects that are directly affected by the agent's "action," and the boundary between the agent and the environment was defined as the Markov Blanket. This agent-centric definition does not allow the agent to respond to unintended changes in the environment caused by factors outside of the defined environment. In the proposed EC-AIF, there is no entity corresponding to an agent. The environment includes all observable things, including people and things conventionally considered to be the environment, as well as entities that perform "actions" such as robots and people. Accordingly, all states, including robots and people, are included in inference targets, eliminating unintended changes in the environment. The EC-AIF was applied to a robot arm and validated with an object transport task by the robot arm. The results showed that the robot arm successfully transported objects while responding to changes in the target position of the object and to changes in the orientation of another robot arm.
翻訳日:2024-08-26 16:19:03 公開日:2024-08-23
# 制約付き機械学習へのデータ中心的アプローチ:コンウェイの人生ゲームに関する事例研究

Data-Centric Approach to Constrained Machine Learning: A Case Study on Conway's Game of Life ( http://arxiv.org/abs/2408.12778v1 )

ライセンス: Link先を確認
Anton Bibin, Anton Dereventsov, (参考訳) 本稿では、ConwayのGame of Lifeの文脈における機械学習アプリケーションに対するデータ中心のアプローチに焦点を当てる。 具体的には,ゲーム・オブ・ライフの移行ルールを学習するために,最小限のアーキテクチャネットワークをトレーニングする作業を検討する。 大規模な定量的分析は、戦略的に設計されたトレーニングデータセットを利用する利点を示し、その利点は、ネットワーク初期化重み付けや最適化アルゴリズムのような学習構成の他のパラメータに関係なく持続する。 重要なことは、制約のある現実のシナリオに対して効果的な機械学習アプリケーションを作成する上で、ドメインエキスパートの洞察が果たす不可欠な役割を強調します。

This paper focuses on a data-centric approach to machine learning applications in the context of Conway's Game of Life. Specifically, we consider the task of training a minimal architecture network to learn the transition rules of Game of Life for a given number of steps ahead, which is known to be challenging due to restrictions on the allowed number of trainable parameters. An extensive quantitative analysis showcases the benefits of utilizing a strategically designed training dataset, with its advantages persisting regardless of other parameters of the learning configuration, such as network initialization weights or optimization algorithm. Importantly, our findings highlight the integral role of domain expert insights in creating effective machine learning applications for constrained real-world scenarios.
翻訳日:2024-08-26 16:19:03 公開日:2024-08-23
# 電子商取引におけるLCM応用の検証

Investigating LLM Applications in E-Commerce ( http://arxiv.org/abs/2408.12779v1 )

ライセンス: Link先を確認
Chester Palen-Michel, Ruixiang Wang, Yipeng Zhang, David Yu, Canran Xu, Zhe Wu, (参考訳) 大規模言語モデル(LLM)の出現は、特にeコマースにおける様々なアプリケーションにおける自然言語処理に革命をもたらした。 これらの分野にそのようなLCMを適用する前に重要なステップは、そのようなタスクにおける異なるユースケースにおけるパフォーマンスを理解し比較することである。 本稿では,電子商取引分野における LLM の有効性について検討し,様々な規模の公開電子商取引データセットを用いたオープンソースの LLM モデルの構築と,産業用途に広く普及している従来のモデルとの比較に焦点をあてる。 我々は,電子商取引ドメインに固有のタスク,すなわち分類,生成,要約,名前付きエンティティ認識(NER)に対して,LLMと従来の事前学習言語モデルとの包括的比較を行った。 さらに,電子商取引特化タスクにおいて,コンテキスト内学習を用いた非常に大規模なLLMのニッチ産業応用の有効性について検討した。 本研究は,タスク固有のモデル最適化の重要性を強調するとともに,ドメイン/タスク内および異なるタスク間でのLoRAマージなど,異なるトレーニング手法について検討した。 本稿では,厳密な実験と分析を通じて,電子商取引業界における自然言語処理能力向上に向けた LLM の有効性に関する貴重な知見を提供する。

The emergence of Large Language Models (LLMs) has revolutionized natural language processing in various applications especially in e-commerce. One crucial step before the application of such LLMs in these fields is to understand and compare the performance in different use cases in such tasks. This paper explored the efficacy of LLMs in the e-commerce domain, focusing on instruction-tuning an open source LLM model with public e-commerce datasets of varying sizes and comparing the performance with the conventional models prevalent in industrial applications. We conducted a comprehensive comparison between LLMs and traditional pre-trained language models across specific tasks intrinsic to the e-commerce domain, namely classification, generation, summarization, and named entity recognition (NER). Furthermore, we examined the effectiveness of the current niche industrial application of very large LLM, using in-context learning, in e-commerce specific tasks. Our findings indicate that few-shot inference with very large LLMs often does not outperform fine-tuning smaller pre-trained models, underscoring the importance of task-specific model optimization.Additionally, we investigated different training methodologies such as single-task training, mixed-task training, and LoRA merging both within domain/tasks and between different tasks. Through rigorous experimentation and analysis, this paper offers valuable insights into the potential effectiveness of LLMs to advance natural language processing capabilities within the e-commerce industry.
翻訳日:2024-08-26 16:19:03 公開日:2024-08-23
# 品質と量 : 低リソース翻訳における大規模言語モデルの適用におけるデータスケールと多様性について

Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation ( http://arxiv.org/abs/2408.12780v1 )

ライセンス: Link先を確認
Vivek Iyer, Bhavitvya Malik, Pavel Stepachev, Pinzhen Chen, Barry Haddow, Alexandra Birch, (参考訳) 機械翻訳(MT)におけるLarge Language Models(LLMs)の最近の人気にもかかわらず、低リソース翻訳のパフォーマンスはニューラル機械翻訳(NMT)モデルに大きく遅れている。 本稿では,低リソース環境にLLMを適用するために何が必要かを考察する。 特に、我々は2つの要因の役割を再検討する。 a) 並列データの重要性と応用、及び ロ 監督微調整(SFT)の多様性 近年,LLM を用いた MT では,従来の MT 研究よりも並列データが重要でないことが示されている。 同様に、SFT中の多様性は言語やタスク間でのLLMの大幅な移動を促進することが示されている。 しかし、低リソースのLLM-MTでは、これら2つの考慮に対して逆が真であることが示される。 a) 並列データは、事前訓練とSFTの間に重要であり、 b) 多様性は、伝達ではなく、干渉を引き起こす傾向がある。 本研究は,2つの低リソース言語群(ネイティブアメリカンとノースイーストインディアン)に3つのLLMを用いて実施した。 これらの知見は,低リソース言語を効果的に活用可能な多言語 LLM-MT モデルへのスケールアップに有用であると考えています。

Despite the recent popularity of Large Language Models (LLMs) in Machine Translation (MT), their performance in low-resource translation still lags significantly behind Neural Machine Translation (NMT) models. In this paper, we explore what it would take to adapt LLMs for low-resource settings. In particular, we re-examine the role of two factors: a) the importance and application of parallel data, and b) diversity in Supervised Fine-Tuning (SFT). Recently, parallel data has been shown to be less important for MT using LLMs than in previous MT research. Similarly, diversity during SFT has been shown to promote significant transfer in LLMs across languages and tasks. However, for low-resource LLM-MT, we show that the opposite is true for both of these considerations: a) parallel data is critical during both pretraining and SFT, and b) diversity tends to cause interference, not transfer. Our experiments, conducted with 3 LLMs across 2 low-resourced language groups - indigenous American and North-East Indian - reveal consistent patterns in both cases, underscoring the generalizability of our findings. We believe these insights will be valuable for scaling to massively multilingual LLM-MT models that can effectively serve lower-resource languages.
翻訳日:2024-08-26 16:19:03 公開日:2024-08-23
# Model Mastery Lifecycle:人間とAIのインタラクションを設計するためのフレームワーク

The Model Mastery Lifecycle: A Framework for Designing Human-AI Interaction ( http://arxiv.org/abs/2408.12781v1 )

ライセンス: Link先を確認
Mark Chignell, Mu-Huan Miles Chung, Jaturong Kongmanee, Khilan Jerath, Abhay Raman, (参考訳) ますます多くの分野におけるAIの利用は、機械やシステムが人間を置き換える、あるいはそれらが果たす役割をさまざまなタスクで変えるという、長いプロセスの最新のイテレーションである。 人間は技術革新に抵抗することが多いが、特に職場では、自動化を拡大する一般的な傾向があり、最近ではAIが普及している。 AIは現在、以前は人間の専門知識のみを必要とすると考えられていた多くのタスクを実行、または支援することができる。 本稿では,人間の専門家かAIが行うことができるタスクの事例を考察し,一方の端で人間のみのタスクパフォーマンスから他方の端でAI自律性まで,その極端で人間とAIのインタラクションのさまざまな形態を持つ連続体に配置する。 AIの実装は、システムとワークフローのコンテキストによって制約され、組み込みされる。 異なる状況でAIをどのように使うべきかを判断し、人間とAIが効果的に連携してタスクを遂行できるように、人間とAIの相互作用の適切な方法を開発する方法が緊急に必要である。 AIの進歩と熟達の進展に対応するため、我々はAI Mastery Lifecycleフレームワークを導入し、その人間-AIインタラクションへの影響について議論する。 このフレームワークは、ヒューマン-AIタスク割り当てのガイダンスと、ヒューマン-AIインターフェースが時間とともにAIタスクのパフォーマンスの改善にどのように適応する必要があるかを提供する。 フレームワーク内では、ヒューマンAIタスクアロケーションやユーザインターフェース設計の問題が最も困難な、不確実性のゾーンを特定します。

The utilization of AI in an increasing number of fields is the latest iteration of a long process, where machines and systems have been replacing humans, or changing the roles that they play, in various tasks. Although humans are often resistant to technological innovation, especially in workplaces, there is a general trend towards increasing automation, and more recently, AI. AI is now capable of carrying out, or assisting with, many tasks that used to be regarded as exclusively requiring human expertise. In this paper we consider the case of tasks that could be performed either by human experts or by AI and locate them on a continuum running from exclusively human task performance at one end to AI autonomy on the other, with a variety of forms of human-AI interaction between those extremes. Implementation of AI is constrained by the context of the systems and workflows that it will be embedded within. There is an urgent need for methods to determine how AI should be used in different situations and to develop appropriate methods of human-AI interaction so that humans and AI can work together effectively to perform tasks. In response to the evolving landscape of AI progress and increasing mastery, we introduce an AI Mastery Lifecycle framework and discuss its implications for human-AI interaction. The framework provides guidance on human-AI task allocation and how human-AI interfaces need to adapt to improvements in AI task performance over time. Within the framework we identify a zone of uncertainty where the issues of human-AI task allocation and user interface design are likely to be most challenging.
翻訳日:2024-08-26 16:19:03 公開日:2024-08-23
# LLM-PBE:大規模言語モデルにおけるデータプライバシの評価

LLM-PBE: Assessing Data Privacy in Large Language Models ( http://arxiv.org/abs/2408.12787v1 )

ライセンス: Link先を確認
Qinbin Li, Junyuan Hong, Chulin Xie, Jeffrey Tan, Rachel Xin, Junyi Hou, Xavier Yin, Zhun Wang, Dan Hendrycks, Zhangyang Wang, Bo Li, Bingsheng He, Dawn Song, (参考訳) 大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。 しかし、複雑な言語データの処理と解釈における彼らの深い能力は、データプライバシ、特に意図しないトレーニングデータ漏洩のリスクに対する懸念を軽く押し付けている。 この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。 このギャップに対処するために,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介した。 LLM-PBEは、LCMのライフサイクル全体を通してプライバシーを分析し、多様な攻撃と防御戦略を取り入れ、さまざまなデータタイプとメトリクスを扱うように設計されている。 LLM-PBEは、複数のLLMで詳細な実験を行うことで、データプライバシに関する詳細な調査を促進し、モデルサイズやデータ特性、時間次元の進化といった影響要因に光を当てる。 本研究は,LLMにおけるプライバシー問題に対する理解を深めるだけでなく,今後の研究に欠かせない情報源となる。 LLMのプライバシー評価における学術的および実践的な進歩のためのオープンなプラットフォームを提供するため、この分野における知識の広範化を目標として、発見、リソース、および完全な技術レポートがhttps://llm-pbe.github.io/で公開されています。

Large Language Models (LLMs) have become integral to numerous domains, significantly advancing applications in data management, mining, and analysis. Their profound capabilities in processing and interpreting complex language data, however, bring to light pressing concerns regarding data privacy, especially the risk of unintentional training data leakage. Despite the critical nature of this issue, there has been no existing literature to offer a comprehensive assessment of data privacy risks in LLMs. Addressing this gap, our paper introduces LLM-PBE, a toolkit crafted specifically for the systematic evaluation of data privacy risks in LLMs. LLM-PBE is designed to analyze privacy across the entire lifecycle of LLMs, incorporating diverse attack and defense strategies, and handling various data types and metrics. Through detailed experimentation with multiple LLMs, LLM-PBE facilitates an in-depth exploration of data privacy concerns, shedding light on influential factors such as model size, data characteristics, and evolving temporal dimensions. This study not only enriches the understanding of privacy issues in LLMs but also serves as a vital resource for future research in the field. Aimed at enhancing the breadth of knowledge in this area, the findings, resources, and our full technical report are made available at https://llm-pbe.github.io/, providing an open platform for academic and practical advancements in LLM privacy assessment.
翻訳日:2024-08-26 16:19:03 公開日:2024-08-23
# 映像データ中の物体の時間的埋め込み

Context-Aware Temporal Embedding of Objects in Video Data ( http://arxiv.org/abs/2408.12789v1 )

ライセンス: Link先を確認
Ahnaf Farhan, M. Shahriar Hossain, (参考訳) ビデオ分析において、時間的コンテキストを理解することは、時間とともにオブジェクトの相互作用、イベントパターン、コンテキストの変化を認識するために不可欠である。 提案モデルは、隣接するビデオフレームからのオブジェクト間の隣接性と意味的類似性を利用して、コンテキスト対応の時間的オブジェクト埋め込みを構築する。 視覚的外観にのみ依存する従来の手法とは異なり、我々の時間的埋め込みモデルは、物体間の文脈的関係を考慮し、時間的に連結された物体のベクトルが近接している有意義な埋め込み空間を作成する。 実証実験により、従来の視覚的埋め込みと併用して、文脈対応の時間的埋め込みを用いることで、下流アプリケーションの有効性を高めることができることが示された。 さらに、埋め込みは、Large Language Model (LLM)を使用してビデオをナレーションするために使用することができる。 本稿では,映像データにコンテキスト対応の時間的オブジェクト埋め込みを生成する目的関数の複雑な詳細を述べるとともに,映像解析やオブジェクト分類タスクにおいて生成した埋め込みの潜在的な応用について述べる。

In video analysis, understanding the temporal context is crucial for recognizing object interactions, event patterns, and contextual changes over time. The proposed model leverages adjacency and semantic similarities between objects from neighboring video frames to construct context-aware temporal object embeddings. Unlike traditional methods that rely solely on visual appearance, our temporal embedding model considers the contextual relationships between objects, creating a meaningful embedding space where temporally connected object's vectors are positioned in proximity. Empirical studies demonstrate that our context-aware temporal embeddings can be used in conjunction with conventional visual embeddings to enhance the effectiveness of downstream applications. Moreover, the embeddings can be used to narrate a video using a Large Language Model (LLM). This paper describes the intricate details of the proposed objective function to generate context-aware temporal object embeddings for video data and showcases the potential applications of the generated embeddings in video analysis and object classification tasks.
翻訳日:2024-08-26 16:19:03 公開日:2024-08-23
# オープンセットディープフェイク検出:フォルジェリースタイル混合を用いたパラメータ効率の良い適応法

Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture ( http://arxiv.org/abs/2408.12791v1 )

ライセンス: Link先を確認
Chenqi Kong, Anwei Luo, Peijun Bao, Haoliang Li, Renjie Wan, Zengwei Zheng, Anderson Rocha, Alex C. Kot, (参考訳) オープンセットの顔偽造検出は、重大なセキュリティ上の脅威を生じさせ、既存の検出モデルに対して重大な課題を提起する。 これらの検出器は主に2つの制限がある:それらは未知の偽ドメインをまたいで一般化することができず、新しいデータに非効率に適応できない。 これらの問題に対処するため,顔偽造検出に汎用かつパラメータ効率のよい手法を提案する。 これは、異なるフォージェリーソースドメインが異なるスタイル統計を示すという仮定に基づいている。 従来の手法では、訓練済みのネットワークを完全に調整し、かなりの時間と計算資源を消費する。 そこで,本研究では,偽源領域の多様性を増大させ,未知領域間のモデルの一般化性を向上するフォージェリー・ミックス・フォーミュレーションを設計する。 顔偽造検出のための視覚変換器(ViT)の最近の進歩に基づき、軽量な偽造特徴抽出モジュールを含むパラメータ効率の高いViTベースの検出モデルを開発し、グローバルおよびローカルな偽造手がかりを同時に抽出できるようにする。 トレーニング中に挿入された軽量モジュールのみを最適化し、トレーニング済みのImageNet重みでオリジナルのViT構造を維持します。 この訓練戦略は、ディープフェイク検出のタスクにモデルを柔軟に適応させつつ、情報的事前学習された知識を効果的に保存する。 大規模な実験結果から, 設計したモデルは, 訓練可能なパラメータを著しく減らし, 野生でのDeepfake検出に向けた重要なステップとして, 最先端の一般化性を達成できることが示唆された。

Open-set face forgery detection poses significant security threats and presents substantial challenges for existing detection models. These detectors primarily have two limitations: they cannot generalize across unknown forgery domains and inefficiently adapt to new data. To address these issues, we introduce an approach that is both general and parameter-efficient for face forgery detection. It builds on the assumption that different forgery source domains exhibit distinct style statistics. Previous methods typically require fully fine-tuning pre-trained networks, consuming substantial time and computational resources. In turn, we design a forgery-style mixture formulation that augments the diversity of forgery source domains, enhancing the model's generalizability across unseen domains. Drawing on recent advancements in vision transformers (ViT) for face forgery detection, we develop a parameter-efficient ViT-based detection model that includes lightweight forgery feature extraction modules and enables the model to extract global and local forgery clues simultaneously. We only optimize the inserted lightweight modules during training, maintaining the original ViT structure with its pre-trained ImageNet weights. This training strategy effectively preserves the informative pre-trained knowledge while flexibly adapting the model to the task of Deepfake detection. Extensive experimental results demonstrate that the designed model achieves state-of-the-art generalizability with significantly reduced trainable parameters, representing an important step toward open-set Deepfake detection in the wild.
翻訳日:2024-08-26 16:19:03 公開日:2024-08-23
# 確率密度関数回帰による事象検出

Event Detection via Probability Density Function Regression ( http://arxiv.org/abs/2408.12792v1 )

ライセンス: Link先を確認
Clark Peng, Tolga Dinçer, (参考訳) 時系列分析の分野では、特にイベント検出タスクにおいて、現在の方法論は主にセグメンテーションに基づくアプローチに依存しており、各タイムステップのクラスラベルを予測し、これらのラベルの変更点を使用してイベントを検出する。 しかし、これらの手法は、データ内のイベントの正確なオンセットとオフセットを効果的に検出することができず、クラス不均衡の問題に悩まされる可能性がある。 本研究では、時間間隔定義イベント検出問題を再編成する一般化回帰に基づく手法を提案する。 コンピュータビジョンからの熱マップ回帰技術にインスパイアされた我々の手法は、時系列全体にわたるクラスラベルではなく、イベントの場所における確率密度を予測することを目的としている。 このアプローチの主な目的は、イベント検出方法の精度を改善することであり、特に、個々のイベント状態の分類よりも、オンセットとオフセットの識別がより重要である長期化イベントに対してである。 回帰に基づくアプローチは、さまざまな最先端のベースラインネットワークやデータセットにまたがるセグメンテーションベースの手法よりも優れており、特定のイベント検出タスクに対してより効果的なソリューションを提供する。

In the domain of time series analysis, particularly in event detection tasks, current methodologies predominantly rely on segmentation-based approaches, which predict the class label for each individual timesteps and use the changepoints of these labels to detect events. However, these approaches may not effectively detect the precise onset and offset of events within the data and suffer from class imbalance problems. This study introduces a generalized regression-based approach to reframe the time-interval-defined event detection problem. Inspired by heatmap regression techniques from computer vision, our approach aims to predict probability densities at event locations rather than class labels across the entire time series. The primary aim of this approach is to improve the accuracy of event detection methods, particularly for long-duration events where identifying the onset and offset is more critical than classifying individual event states. We demonstrate that regression-based approaches outperform segmentation-based methods across various state-of-the-art baseline networks and datasets, offering a more effective solution for specific event detection tasks.
翻訳日:2024-08-26 16:19:03 公開日:2024-08-23
# La-SoftMoE CLIPによる一元的顔検出

La-SoftMoE CLIP for Unified Physical-Digital Face Attack Detection ( http://arxiv.org/abs/2408.12793v1 )

ライセンス: Link先を確認
Hang Zou, Chenxi Du, Hui Zhang, Yuan Zhang, Ajian Liu, Jun Wan, Zhen Lei, (参考訳) 顔認識システムは、物理的攻撃とデジタル攻撃の両方に影響を受けやすく、重大なセキュリティリスクを生じさせる。 伝統的なアプローチは、2つの攻撃タイプを別々に扱うことが多い。 そのため、組み合わさって攻撃を受けると、ほとんど全ての方法が対処できなかった。 いくつかの研究では、両方の攻撃のスパースデータを単一のデータセットに組み合わせ、共通の特徴空間を見つけようとする。 これらの課題を克服するために、スパースモデルを用いてスパースデータを処理し、異なるパラメータ群を用いてスパース特徴空間の異なる領域を処理する新しいアプローチを提案する。 具体的には、モデルにMixture of Experts(MoE)フレームワークを使用し、トレーニング中にさまざまな重みを持つトークンと専門家パラメータをマッチングし、テスト中に適応的にアクティベートする。 しかし、従来のMoEは、この問題の複雑で不規則な分類境界に悩まされている。 このように、フレキシブルな自己適応重み付け機構を導入し、モデルに適合し、適応できるようにする。 本稿では,統一攻撃検出(UAD)タスクへのより柔軟な適応を可能にするLa-SoftMoE CLIPを提案する。 実験の結果,提案手法はSOTA性能を有することがわかった。

Facial recognition systems are susceptible to both physical and digital attacks, posing significant security risks. Traditional approaches often treat these two attack types separately due to their distinct characteristics. Thus, when being combined attacked, almost all methods could not deal. Some studies attempt to combine the sparse data from both types of attacks into a single dataset and try to find a common feature space, which is often impractical due to the space is difficult to be found or even non-existent. To overcome these challenges, we propose a novel approach that uses the sparse model to handle sparse data, utilizing different parameter groups to process distinct regions of the sparse feature space. Specifically, we employ the Mixture of Experts (MoE) framework in our model, expert parameters are matched to tokens with varying weights during training and adaptively activated during testing. However, the traditional MoE struggles with the complex and irregular classification boundaries of this problem. Thus, we introduce a flexible self-adapting weighting mechanism, enabling the model to better fit and adapt. In this paper, we proposed La-SoftMoE CLIP, which allows for more flexible adaptation to the Unified Attack Detection (UAD) task, significantly enhancing the model's capability to handle diversity attacks. Experiment results demonstrate that our proposed method has SOTA performance.
翻訳日:2024-08-26 16:19:03 公開日:2024-08-23
# MediaPipe と LSTM を用いた手動リフティング作業のリアルタイム姿勢モニタリングとリスク評価

Real-Time Posture Monitoring and Risk Assessment for Manual Lifting Tasks Using MediaPipe and LSTM ( http://arxiv.org/abs/2408.12796v1 )

ライセンス: Link先を確認
Ereena Bagga, Ang Yang, (参考訳) 本研究は,AIとコンピュータビジョン技術を用いた手動浮揚作業のためのリアルタイム姿勢監視・リスクアセスメントシステムの開発に焦点をあてる。 筋骨格障害(MSD)は、手動浮揚に関わる作業者にとって重要な問題であり、伝統的な姿勢補正法は、遅延フィードバックとパーソナライズドアセスメントの欠如により、しばしば不十分である。 提案手法は,AIによる姿勢検出,詳細なキーポイント分析,リスクレベル決定,ユーザフレンドリーなWebインターフェースによるリアルタイムフィードバックを統合した。 このシステムは姿勢を改善し、MSDのリスクを低減し、ユーザのエンゲージメントを高めることを目的としている。 この研究には、包括的なデータ収集、モデルトレーニング、そして高い精度とユーザの満足度を確保するための反復的な開発が含まれる。 ソリューションの有効性は既存の方法論に対して評価され、リアルタイムフィードバックとリスクアセスメントの大幅な改善が示されている。 本研究は、既存のギャップに対処し、ユーザに対して実用的な即時利益を提供する姿勢補正の新しいアプローチを提供することによって、この分野に寄与する。

This research focuses on developing a real-time posture monitoring and risk assessment system for manual lifting tasks using advanced AI and computer vision technologies. Musculoskeletal disorders (MSDs) are a significant concern for workers involved in manual lifting, and traditional methods for posture correction are often inadequate due to delayed feedback and lack of personalized assessment. Our proposed solution integrates AI-driven posture detection, detailed keypoint analysis, risk level determination, and real-time feedback delivered through a user-friendly web interface. The system aims to improve posture, reduce the risk of MSDs, and enhance user engagement. The research involves comprehensive data collection, model training, and iterative development to ensure high accuracy and user satisfaction. The solution's effectiveness is evaluated against existing methodologies, demonstrating significant improvements in real-time feedback and risk assessment. This study contributes to the field by offering a novel approach to posture correction that addresses existing gaps and provides practical, immediate benefits to users.
翻訳日:2024-08-26 16:19:03 公開日:2024-08-23
# BackdoorLLM: 大規模言語モデルに対するバックドア攻撃の総合ベンチマーク

BackdoorLLM: A Comprehensive Benchmark for Backdoor Attacks on Large Language Models ( http://arxiv.org/abs/2408.12798v1 )

ライセンス: Link先を確認
Yige Li, Hanxun Huang, Yunhan Zhao, Xingjun Ma, Jun Sun, (参考訳) ジェネレーティブ・大型言語モデル(LLM)は様々なタスクで大きな進歩を遂げてきたが、バックドア攻撃に弱いままであり、プロンプトの特定のトリガーによってLSMは敵に望まれる応答を生成する。 ほとんどのバックドア研究は視覚やテキスト分類に重点を置いているが、テキスト生成におけるバックドア攻撃はほとんど見過ごされている。 本研究では,LLMに対するバックドア攻撃を研究するための,最初の総合的なベンチマークである \textit{BackdoorLLM} を紹介する。 \textit{BackdoorLLM} の機能。 1)標準化されたトレーニングパイプラインを備えたバックドアベンチマークのリポジトリ。 2) 各種攻撃戦略として, データ中毒, 体重中毒, 隠れ状態攻撃, 思考連鎖攻撃がある。 3) 7つのシナリオと6つのモデルアーキテクチャにわたる8つの攻撃に関する200以上の実験による広範な評価。 4) LLMにおけるバックドアの有効性と限界に関する重要な知見。 私たちは、‘textit{BackdoorLLM} がバックドアの脅威に対する認識を高め、AIの安全性向上に貢献してくれることを願っています。 コードは \url{https://github.com/bboylyg/BackdoorLLM} で公開されている。

Generative Large Language Models (LLMs) have made significant strides across various tasks, but they remain vulnerable to backdoor attacks, where specific triggers in the prompt cause the LLM to generate adversary-desired responses. While most backdoor research has focused on vision or text classification tasks, backdoor attacks in text generation have been largely overlooked. In this work, we introduce \textit{BackdoorLLM}, the first comprehensive benchmark for studying backdoor attacks on LLMs. \textit{BackdoorLLM} features: 1) a repository of backdoor benchmarks with a standardized training pipeline, 2) diverse attack strategies, including data poisoning, weight poisoning, hidden state attacks, and chain-of-thought attacks, 3) extensive evaluations with over 200 experiments on 8 attacks across 7 scenarios and 6 model architectures, and 4) key insights into the effectiveness and limitations of backdoors in LLMs. We hope \textit{BackdoorLLM} will raise awareness of backdoor threats and contribute to advancing AI safety. The code is available at \url{https://github.com/bboylyg/BackdoorLLM}.
翻訳日:2024-08-26 16:19:03 公開日:2024-08-23
# さらなる教訓:学習コーパスの自己計算を自動化した生成言語モデルにおける選好学習の促進

Less for More: Enhancing Preference Learning in Generative Language Models with Automated Self-Curation of Training Corpora ( http://arxiv.org/abs/2408.12799v1 )

ライセンス: Link先を確認
JoonHo Lee, JuYoun Son, Juree Seok, Wooseok Jang, Yeong-Dae Kwon, (参考訳) 言語におけるあいまいさは、特に嗜好学習において、より強化された言語モデルを開発する際の課題を示し、アノテータ間のばらつきは、モデルアライメントに使用される無矛盾な注釈付きデータセットをもたらす。 この問題に対処するために、これらのデータセット上で直接訓練されたプロキシモデルを活用することにより、アノテーション付きデータセットを前処理するセルフキュレーション手法を導入する。 提案手法は,データセット内の曖昧なアノテーションを自動的に検出し,削除することにより,嗜好学習を強化する。 提案手法は広範囲な実験によって検証され、様々な命令追従タスクにおける性能が著しく向上したことを示す。 我々の研究は、アノテーションの不整合を克服する単純で信頼性の高い方法を提供し、より先進的な選好学習技術の開発に向けた最初のステップとなる。

Ambiguity in language presents challenges in developing more enhanced language models, particularly in preference learning, where variability among annotators results in inconsistently annotated datasets used for model alignment. To address this issue, we introduce a self-curation method that preprocesses annotated datasets by leveraging proxy models trained directly on these datasets. Our method enhances preference learning by automatically detecting and removing ambiguous annotations within the dataset. The proposed approach is validated through extensive experiments, demonstrating a marked improvement in performance across various instruction-following tasks. Our work provides a straightforward and reliable method to overcome annotation inconsistencies, serving as an initial step towards the development of more advanced preference learning techniques.
翻訳日:2024-08-26 16:09:18 公開日:2024-08-23
# あいまいな時間遅延を伴うロバスト予測:ブートストラップ戦略

Robust Predictions with Ambiguous Time Delays: A Bootstrap Strategy ( http://arxiv.org/abs/2408.12801v1 )

ライセンス: Link先を確認
Jiajie Wang, Zhiyuan Jerry Lin, Wen Chen, (参考訳) 現代のデータ駆動型環境では、多変量時系列データの生成と処理は、しばしば異なる時系列間の時間遅延によって複雑になる、一様課題である。 これらの遅延は、様々なデータ伝達ダイナミクス、センサー干渉、環境変化など、様々なソースから発生したものであり、重大な複雑さをもたらす。 通常一定時間遅れを仮定する伝統的な時間遅延推定法は、これらの変動を完全に捉えておらず、様々な設定で予測モデルの精度を損なう可能性がある。 この問題に対処するために、時系列モデリングにおいて潜在的に変動する、あるいは非決定論的な時間遅延を扱うように設計された汎用フレームワークである、時系列モデルブートストラップ(TSMB)を紹介します。 単一で一貫した時間遅延を仮定する従来のアプローチとは対照的に、TSMBは非パラメトリックなスタンスを採用し、時間遅延の不確実性を認め、取り入れている。 TSMBはトレーニングされたモデルの性能を大幅に向上させ、このフレームワークを使って予測する。

In contemporary data-driven environments, the generation and processing of multivariate time series data is an omnipresent challenge, often complicated by time delays between different time series. These delays, originating from a multitude of sources like varying data transmission dynamics, sensor interferences, and environmental changes, introduce significant complexities. Traditional Time Delay Estimation methods, which typically assume a fixed constant time delay, may not fully capture these variabilities, compromising the precision of predictive models in diverse settings. To address this issue, we introduce the Time Series Model Bootstrap (TSMB), a versatile framework designed to handle potentially varying or even nondeterministic time delays in time series modeling. Contrary to traditional approaches that hinge on the assumption of a single, consistent time delay, TSMB adopts a nonparametric stance, acknowledging and incorporating time delay uncertainties. TSMB significantly bolsters the performance of models that are trained and make predictions using this framework, making it highly suitable for a wide range of dynamic and interconnected data environments.
翻訳日:2024-08-26 16:09:18 公開日:2024-08-23
# マルチタスク・アップリフトモデリングによるユーザ成長の促進

Multi-Treatment Multi-Task Uplift Modeling for Enhancing User Growth ( http://arxiv.org/abs/2408.12803v1 )

ライセンス: Link先を確認
Yuxiang Wei, Zhaoxin Qiu, Yingjie Li, Yuke Sun, Xiaoling Li, (参考訳) オンラインユーザ成長の鍵となる要素として、アップリフトモデリングは、ゲームボーナスなどの様々な治療に対する個々のユーザ反応(例えば、ゲームをするかどうか)を測定することを目的としており、それによってビジネス成果が向上する。 しかし、従来の研究では、1つの治療しか存在せず、全体的な治療効果は単一のタイプのユーザ応答によって測定される、単一タスクの単一処理環境を概ね考慮していた。 本稿では,マルチタスクシナリオにおける処理効果を推定するために,MTMT(Multi-Treatment Multi-Task Uplift Network)を提案する。 我々は,多処理問題を,基礎効果(治療の提供から)と漸進効果(特定の治療の種類の提供まで)からなるタイレッド応答による因果推論問題と同定し,基礎効果が漸進効果よりも数値的に大きくなることを示した。 具体的には、MTMTはユーザーの特徴と治療を別々にエンコードする。 ユーザ機能エンコーダは、MMOE(Multi-gate Mixed Expert)ネットワークを使用して、関連するユーザ機能をエンコードし、タスク間の関係を明示的に学習する。 結果の埋め込みは、タスク毎の自然な応答を測定するために使用される。 さらに,各処理とユーザ特徴の相関関係をモデル化するための処理ユーザ間相互作用モジュールを提案する。 その結果、作成した処理認識表現に基づいて、各タスクのベースとインクリメンタルな処理効果を別々に測定した。 オフラインのパブリックデータセットとオンラインのプロプライエタリデータセットに基づく実験結果は、シングル/マルチ処理とシングル/マルチタスク設定におけるMTMTの有効性を示す。 さらに、MTMTはユーザエクスペリエンスを改善するために、当社のゲームプラットフォームにデプロイされています。

As a key component in boosting online user growth, uplift modeling aims to measure individual user responses (e.g., whether to play the game) to various treatments, such as gaming bonuses, thereby enhancing business outcomes. However, previous research typically considers a single-task, single-treatment setting, where only one treatment exists and the overall treatment effect is measured by a single type of user response. In this paper, we propose a Multi-Treatment Multi-Task (MTMT) uplift network to estimate treatment effects in a multi-task scenario. We identify the multi-treatment problem as a causal inference problem with a tiered response, comprising a base effect (from offering a treatment) and an incremental effect (from offering a specific type of treatment), where the base effect can be numerically much larger than the incremental effect. Specifically, MTMT separately encodes user features and treatments. The user feature encoder uses a multi-gate mixture of experts (MMOE) network to encode relevant user features, explicitly learning inter-task relations. The resultant embeddings are used to measure natural responses per task. Furthermore, we introduce a treatment-user feature interaction module to model correlations between each treatment and user feature. Consequently, we separately measure the base and incremental treatment effect for each task based on the produced treatment-aware representations. Experimental results based on an offline public dataset and an online proprietary dataset demonstrate the effectiveness of MTMT in single/multi-treatment and single/multi-task settings. Additionally, MTMT has been deployed in our gaming platform to improve user experience.
翻訳日:2024-08-26 16:09:18 公開日:2024-08-23
# 視覚表現の普遍次元

Universal dimensions of visual representation ( http://arxiv.org/abs/2408.12804v1 )

ライセンス: Link先を確認
Zirui Chen, Michael F. Bonner, (参考訳) 視覚のニューラルネットワークモデルは、アーキテクチャ上の制約とタスク目標を生物学的ビジョンと共有しているため、あるいは、自然言語処理の普遍的な特徴を学習しているため、ブレインアライン表現を学ぶのか? 我々は、様々な構成の視覚ニューラルネットワークから数十万の表現次元の普遍性を特徴づけた。 様々なアーキテクチャやタスクの目的を持つネットワークは,表面レベルでは高度に異なるように見えるが,複数の潜在次元の共有集合を用いて自然なイメージを表現できることが判明した。 次に、これらのネットワークをfMRIで測定した人間の脳の表現と比較することにより、ニューラルネットワークにおける最も脳に整合した表現は、ネットワークの特定の特徴から独立しているものであることが判明した。 注目すべきは、各ネットワークは、人間の脳との表現的類似性にほとんど影響を与えずに、最も普遍的な次元の10未満に縮小することができることである。 これらの結果は、人工的な視覚と生物学的視覚の基本的な類似性は、主に多様なシステムによって収束的に学習される普遍的なイメージ表現のコアセットによって制御されていることを示唆している。

Do neural network models of vision learn brain-aligned representations because they share architectural constraints and task objectives with biological vision or because they learn universal features of natural image processing? We characterized the universality of hundreds of thousands of representational dimensions from visual neural networks with varied construction. We found that networks with varied architectures and task objectives learn to represent natural images using a shared set of latent dimensions, despite appearing highly distinct at a surface level. Next, by comparing these networks with human brain representations measured with fMRI, we found that the most brain-aligned representations in neural networks are those that are universal and independent of a network's specific characteristics. Remarkably, each network can be reduced to fewer than ten of its most universal dimensions with little impact on its representational similarity to the human brain. These results suggest that the underlying similarities between artificial and biological vision are primarily governed by a core set of universal image representations that are convergently learned by diverse systems.
翻訳日:2024-08-26 16:09:18 公開日:2024-08-23
# データ駆動型リスク定量化モデルに基づく自動運転のための安全自己進化アルゴリズム

A Safe Self-evolution Algorithm for Autonomous Driving Based on Data-Driven Risk Quantification Model ( http://arxiv.org/abs/2408.12805v1 )

ライセンス: Link先を確認
Shuo Yang, Shizhen Li, Yanjun Huang, Hong Chen, (参考訳) 自己進化能力を持つ自律運転システムは、複雑でオープンな環境で独立して進化する可能性があり、より未知のシナリオを扱うことができる。 しかし、進化的アルゴリズムの安全性と性能のトレードオフ機構により、改良能力を犠牲にすることなく安全な探索を確保することは困難である。 この問題は、特に動的なトラフィックシナリオにおいて顕著である。 そこで本研究では,データ駆動型リスク定量化モデルに基づく自動運転のための安全な自己進化アルゴリズムを提案する。 具体的には、運転中のリスクを人間が認識する方法をモデル化し、データ駆動型アプローチにより周囲環境の安全状況を推定するリスク定量化モデルを提案する。 アルゴリズムの自己進化能力に対する過保守的安全保護ポリシーの影響を防止するため, 安全限度を調整可能な安全度付き安全進化型決定制御統合アルゴリズムを提案し, 提案したリスク量子化モデルを統合する。 シミュレーションと実車実験の結果は,提案手法の有効性を示すものである。 提案アルゴリズムは,学習に基づく自律運転システムの進化可能性を失うことなく,様々な複雑なシナリオにおいて安全かつ合理的な動作を生成できることを示す。

Autonomous driving systems with self-evolution capabilities have the potential to independently evolve in complex and open environments, allowing to handle more unknown scenarios. However, as a result of the safety-performance trade-off mechanism of evolutionary algorithms, it is difficult to ensure safe exploration without sacrificing the improvement ability. This problem is especially prominent in dynamic traffic scenarios. Therefore, this paper proposes a safe self-evolution algorithm for autonomous driving based on data-driven risk quantification model. Specifically, a risk quantification model based on the attention mechanism is proposed by modeling the way humans perceive risks during driving, with the idea of achieving safety situation estimation of the surrounding environment through a data-driven approach. To prevent the impact of over-conservative safety guarding policies on the self-evolution capability of the algorithm, a safety-evolutionary decision-control integration algorithm with adjustable safety limits is proposed, and the proposed risk quantization model is integrated into it. Simulation and real-vehicle experiments results illustrate the effectiveness of the proposed method. The results show that the proposed algorithm can generate safe and reasonable actions in a variety of complex scenarios and guarantee safety without losing the evolutionary potential of learning-based autonomous driving systems.
翻訳日:2024-08-26 16:09:18 公開日:2024-08-23
# ジェネレーティブAIは脅威俳優にとって次の戦術的サイバー兵器か?

Is Generative AI the Next Tactical Cyber Weapon For Threat Actors? Unforeseen Implications of AI Generated Cyber Attacks ( http://arxiv.org/abs/2408.12806v1 )

ライセンス: Link先を確認
Yusuf Usman, Aadesh Upadhyay, Prashnna Gyawali, Robin Chataut, (参考訳) デジタルの脅威がますます洗練されている時代に、人工知能とサイバーセキュリティの交差点は、有望な防衛と強力な危険の両方を提示している。 本稿では,AIの誤用によるエスカレートする脅威,特にLarge Language Models(LLMs)の使用について述べる。 本研究は,サイバー犯罪者がサイバー攻撃を発生・自動化するために利用するスイッチ法やキャラクタプレイ法など,様々な手法を詳述する。 一連の制御された実験を通じて、これらのモデルを倫理的およびプライバシ保護を回避し、社会工学、悪意のあるコード、ペイロード生成、スパイウェアなどのサイバー攻撃を効果的に発生させる方法を示す。 これらのAIが生のシステムに対して発生した攻撃をテストすることで、研究は、AIが重要なインフラにもたらすリスクを実践的な視点で評価し、それらの有効性と、それらが悪用する脆弱性を評価する。 私たちはまた、サイバー攻撃の自動化と実行のために特別に設計されたカスタマイズされた微調整のLLMであるOccupy AIを紹介します。 このAI駆動ツールは、フィッシング、マルウェア注入、システムエクスプロイトなど、さまざまなサイバー脅威に対して、ステップの作成と実行可能なコード生成に適している。 その結果は、倫理的AIプラクティスの緊急性、堅牢なサイバーセキュリティ対策、AI関連の脅威を緩和するための規制監督などを強調している。 本稿では,サイバーセキュリティコミュニティ内でのデジタル脅威の進展に対する認識を高め,積極的な防衛戦略を提唱し,新興のサイバー脅威から保護するためにAI開発に責任を負うことを目的とする。

In an era where digital threats are increasingly sophisticated, the intersection of Artificial Intelligence and cybersecurity presents both promising defenses and potent dangers. This paper delves into the escalating threat posed by the misuse of AI, specifically through the use of Large Language Models (LLMs). This study details various techniques like the switch method and character play method, which can be exploited by cybercriminals to generate and automate cyber attacks. Through a series of controlled experiments, the paper demonstrates how these models can be manipulated to bypass ethical and privacy safeguards to effectively generate cyber attacks such as social engineering, malicious code, payload generation, and spyware. By testing these AI generated attacks on live systems, the study assesses their effectiveness and the vulnerabilities they exploit, offering a practical perspective on the risks AI poses to critical infrastructure. We also introduce Occupy AI, a customized, finetuned LLM specifically engineered to automate and execute cyberattacks. This specialized AI driven tool is adept at crafting steps and generating executable code for a variety of cyber threats, including phishing, malware injection, and system exploitation. The results underscore the urgency for ethical AI practices, robust cybersecurity measures, and regulatory oversight to mitigate AI related threats. This paper aims to elevate awareness within the cybersecurity community about the evolving digital threat landscape, advocating for proactive defense strategies and responsible AI development to protect against emerging cyber threats.
翻訳日:2024-08-26 16:09:18 公開日:2024-08-23
# コードオーナシップ: 原則,相違点,およびソフトウェア品質との関連性

Code Ownership: The Principles, Differences, and Their Associations with Software Quality ( http://arxiv.org/abs/2408.12807v1 )

ライセンス: Link先を確認
Patanamon Thongtanunam, Chakkrit Tantithamthavorn, (参考訳) コードオーナシップ - ソフトウェアコンポーネントのオーナシップの度合いを近似する - は、品質改善計画で使用される重要なソフトウェア対策の1つです。 しかし、以前の研究では、コードオーナシップの様々なバリエーションが提案されていた。 しかし、コードオーナシップの近似の違いや、ソフトウェアの品質との関連についてはほとんど分かっていない。 本稿では,開発者の集合,コードオーナシップの近似値,専門性レベルにおいて,一般的に使用されているオーナシップ近似(コミットベースとラインベース)の違いについて検討する。 そして,各コードオーナシップの近似と欠陥確率の関係を解析する。 実世界のオープンソースソフトウェアシステムにまたがる25のリリースに関する実証的研究を通じて、コミットベースとラインベースのオーナシップの近似が、異なる開発者のセット、異なるコードオーナシップの値、そして異なる主要な開発者のセットを生成することが分かりました。 さらに,コミットベースの近似は,行ベースの近似よりもソフトウェア品質と強く関連していることがわかった。 我々の分析に基づいて、ラインベースのコードオーナシップは説明責任(例えば、著者の属性、知的財産権)に、コミットベースのコードオーナシップは、迅速なバグ修正と品質改善計画に使用すべきである。

Code ownership -- an approximation of the degree of ownership of a software component -- is one of the important software measures used in quality improvement plans. However, prior studies proposed different variants of code ownership approximations. Yet, little is known about the difference in code ownership approximations and their association with software quality. In this paper, we investigate the differences in the commonly used ownership approximations (i.e., commit-based and line-based) in terms of the set of developers, the approximated code ownership values, and the expertise level. Then, we analyze the association of each code ownership approximation with the defect-proneness. Through an empirical study of 25 releases that span real-world open-source software systems, we find that commit-based and line-based ownership approximations produce different sets of developers, different code ownership values, and different sets of major developers. In addition, we find that the commit-based approximation has a stronger association with software quality than the line-based approximation. Based on our analysis, we recommend line-based code ownership be used for accountability purposes (e.g., authorship attribution, intellectual property), while commit-based code ownership should be used for rapid bug-fixing and charting quality improvement plans.
翻訳日:2024-08-26 16:09:18 公開日:2024-08-23
# VALE: eXplainable AIとLanguage Modelを用いた画像分類用マルチモーダルビジュアルおよび言語記述フレームワーク

VALE: A Multimodal Visual and Language Explanation Framework for Image Classifiers using eXplainable AI and Language Models ( http://arxiv.org/abs/2408.12808v1 )

ライセンス: Link先を確認
Purushothaman Natarajan, Athira Nambiar, (参考訳) ディープニューラルネットワーク(DNN)は、タスクの自動化とヒューマンエラーの低減によって、さまざまな分野に革命をもたらした。 しかし、内部の作業や意思決定プロセスはブラックボックスの性質上不明瞭なままである。 その結果、解釈可能性の欠如により、リスクの高いシナリオにおけるこれらのモデルの適用が制限される。 この問題に対処するため、eXplainable Artificial Intelligence(XAI)の新興分野は、DNNの内部動作を説明し、解釈することを目的としている。 進歩にもかかわらず、XAIは機械と人間の理解のセマンティックなギャップ、解釈可能性と性能のトレードオフ、文脈固有の説明の必要性といった課題に直面している。 これらの制約を克服するために,VALEビジュアルと言語説明という新しいマルチモーダルフレームワークを提案する。 VALEは説明可能なAI技術と高度な言語モデルを統合し、包括的な説明を提供する。 このフレームワークは、XAIツールからの視覚的説明、高度なゼロショット画像分割モデル、および視覚言語モデルを用いて、対応するテキスト的説明を生成する。 視覚的およびテキスト的説明を組み合わせることで、VALEはマシン出力と人間の解釈のセマンティックなギャップを埋め、ユーザにとってより理解しやすい結果を提供する。 本稿では,画像分類タスクのためのVALEフレームワークの試験的検討を行う。 具体的には,Shapley Additive Explanations (SHAP) を用いて分類画像中の最も影響力のある領域を同定する。 次に、関心の対象をSAM(Segment Anything Model)を用いて抽出し、最先端のVLM(Vision-Language Models)を用いて説明を生成する。 画像Netデータセットと独自の水中SONARイメージデータセットの2つのデータセットで大規模な実験が行われ、水中画像分類におけるVALEの実際の適用性を実証した。

Deep Neural Networks (DNNs) have revolutionized various fields by enabling task automation and reducing human error. However, their internal workings and decision-making processes remain obscure due to their black box nature. Consequently, the lack of interpretability limits the application of these models in high-risk scenarios. To address this issue, the emerging field of eXplainable Artificial Intelligence (XAI) aims to explain and interpret the inner workings of DNNs. Despite advancements, XAI faces challenges such as the semantic gap between machine and human understanding, the trade-off between interpretability and performance, and the need for context-specific explanations. To overcome these limitations, we propose a novel multimodal framework named VALE Visual and Language Explanation. VALE integrates explainable AI techniques with advanced language models to provide comprehensive explanations. This framework utilizes visual explanations from XAI tools, an advanced zero-shot image segmentation model, and a visual language model to generate corresponding textual explanations. By combining visual and textual explanations, VALE bridges the semantic gap between machine outputs and human interpretation, delivering results that are more comprehensible to users. In this paper, we conduct a pilot study of the VALE framework for image classification tasks. Specifically, Shapley Additive Explanations (SHAP) are used to identify the most influential regions in classified images. The object of interest is then extracted using the Segment Anything Model (SAM), and explanations are generated using state-of-the-art pre-trained Vision-Language Models (VLMs). Extensive experimental studies are performed on two datasets: the ImageNet dataset and a custom underwater SONAR image dataset, demonstrating VALEs real-world applicability in underwater image classification.
翻訳日:2024-08-26 16:09:18 公開日:2024-08-23
# DutyTTE: 原位置走行時間推定における不確かさの解読

DutyTTE: Deciphering Uncertainty in Origin-Destination Travel Time Estimation ( http://arxiv.org/abs/2408.12809v1 )

ライセンス: Link先を確認
Xiaowei Mao, Yan Lin, Shengnan Guo, Yubin Chen, Xingyu Xian, Haomin Wen, Qisen Xu, Youfang Lin, Huaiyu Wan, (参考訳) 旅行時間推定(TTE)の不確実性定量化は、出発点(O)、目的地(D)、出発点(T)の信頼区間を推定することを目的としている。 この不確実性を正確に定量化するには、最も可能性の高い経路を生成し、経路に沿った旅行時間の不確実性を評価する必要がある。 これには2つの大きな課題があります。 1)真実と整合した経路の予測,及び 2) 各区間における走行時間の影響をモデル化し, 異なる条件下での総合的不確実性について検討した。 これらの課題に対処するためにDutyTTEを提案する。 最初の課題として、予測経路と地上真実との整合性を改善するための深層強化学習法を導入し、道路セグメントからより正確な走行時間情報を提供し、TTEを改善する。 第2の課題として,各セグメントの走行時間不確実性をよりよく把握するための不確実性定量化機構を,様々な状況下で指導する専門家の混在を提案する。 さらに,推定信頼区間の統計的保証を提供するために,Hoeffdingの上限値を用いて評価結果を校正する。 2つの実世界のデータセットに対する大規模な実験により,提案手法の優位性を実証した。

Uncertainty quantification in travel time estimation (TTE) aims to estimate the confidence interval for travel time, given the origin (O), destination (D), and departure time (T). Accurately quantifying this uncertainty requires generating the most likely path and assessing travel time uncertainty along the path. This involves two main challenges: 1) Predicting a path that aligns with the ground truth, and 2) modeling the impact of travel time in each segment on overall uncertainty under varying conditions. We propose DutyTTE to address these challenges. For the first challenge, we introduce a deep reinforcement learning method to improve alignment between the predicted path and the ground truth, providing more accurate travel time information from road segments to improve TTE. For the second challenge, we propose a mixture of experts guided uncertainty quantification mechanism to better capture travel time uncertainty for each segment under varying contexts. Additionally, we calibrate our results using Hoeffding's upper-confidence bound to provide statistical guarantees for the estimated confidence intervals. Extensive experiments on two real-world datasets demonstrate the superiority of our proposed method.
翻訳日:2024-08-26 16:09:18 公開日:2024-08-23
# エビデンスにおける科学出版の誤解

Grounding Fallacies Misrepresenting Scientific Publications in Evidence ( http://arxiv.org/abs/2408.12812v1 )

ライセンス: Link先を確認
Max Glockner, Yufang Hou, Preslav Nakov, Iryna Gurevych, (参考訳) 健康関連の誤報の主張は、しばしば信用できる生物医学的な出版物を証拠として引用するが、これは虚偽の主張を表面的に支持しているように見える。 この出版物は実際にはこの主張を支持していないが、読者は論理的な誤信によってそれを信じることができる。 ここでは、誤読された出版物の正確な内容を慎重に評価する必要があるような誤読を検知し、強調することを目的としている。 そこで本研究では,誤検出データセットMissciの拡張であるMissciPlusを紹介する。 MissciPlusはMissci上に構築されており、誤表現された研究から現実世界の通路で適用された誤報を根拠にしている。 これにより、現実の入力条件下でこれらの誤字を検出し、言語化する現実的なテストベッドが作成され、新しいパス検索タスクが実現される。 MissciPlusは、現実世界の誤表現された証拠と誤ったクレームをペアリングする最初の論理的誤認データセットである。 MissciPlus, We 一 誤認が生じた場合に限る。 二 誤記された科学的通路からの誤用理由をLLMが如何に明瞭に表すかを評価すること。 三 バイオメディカル研究の誤りを訴える主張において、事実確認モデルの有効性を評価すること。 以上の結果から,現在の事実チェックモデルでは,誤報を否定するために,誤記された出版物からの関連資料の活用が困難であることが示唆された。 さらに、これらの節はLLMを誤認して偽の主張を真として受け入れる。

Health-related misinformation claims often falsely cite a credible biomedical publication as evidence, which superficially appears to support the false claim. The publication does not really support the claim, but a reader could believe it thanks to the use of logical fallacies. Here, we aim to detect and to highlight such fallacies, which requires carefully assessing the exact content of the misrepresented publications. To achieve this, we introduce MissciPlus, an extension of the fallacy detection dataset Missci. MissciPlus builds on Missci by grounding the applied fallacies in real-world passages from misrepresented studies. This creates a realistic test-bed for detecting and verbalizing these fallacies under real-world input conditions, and enables novel passage-retrieval tasks. MissciPlus is the first logical fallacy dataset which pairs the real-world misrepresented evidence with incorrect claims, identical to the input to evidence-based fact-checking models. With MissciPlus, we i) benchmark retrieval models in identifying passages that support claims only when fallacies are applied, ii) evaluate how well LLMs articulate fallacious reasoning from misrepresented scientific passages, and iii) assess the effectiveness of fact-checking models in refuting claims that misrepresent biomedical research. Our findings show that current fact-checking models struggle to use relevant passages from misrepresented publications to refute misinformation. Moreover, these passages can mislead LLMs into accepting false claims as true.
翻訳日:2024-08-26 16:09:18 公開日:2024-08-23
# マスク付きコンテキストモデリングと連続擬似ラベルによるスクリブル型医用画像セグメンテーション

From Few to More: Scribble-based Medical Image Segmentation via Masked Context Modeling and Continuous Pseudo Labels ( http://arxiv.org/abs/2408.12814v1 )

ライセンス: Link先を確認
Zhisong Wang, Yiwen Ye, Ziyang Chen, Minglei Shu, Yong Xia, (参考訳) スクリブルベースの弱教師付きセグメンテーション技術は、完全な教師付き手法に匹敵する性能を提供すると同時に、アノテーションのコストを大幅に削減し、魅力的な代替手段である。 既存の手法は、しばしば意味的一貫性を強制し、監督のために硬い擬似ラベルを使用する補助的なタスクに依存している。 しかしながら、これらのメソッドはスパースアノテーションで訓練されたモデルのユニークな要件を無視することが多い。 モデルは限られたアノテーションでピクセルワイドセグメンテーションマップを予測しなければならないため、様々なレベルのアノテーションのリッチさを扱う能力は不可欠である。 本稿では,医療画像セグメンテーションのための弱教師付きフレームワークであるMaCoを提案する。 MaCoはマスク付きコンテキストモデリング(MCM)と連続擬似ラベル(CPL)を採用している。 MCMは、注意に基づくマスキング戦略を用いて入力画像を破壊し、モデルの予測が元の画像と一致し続けるように促す。 CPLは、スクリブルアノテーションを距離写像に指数的減衰関数を適用することで連続的なピクセルワイズラベルに変換し、その結果、ハードな擬似ラベルを使用するのではなく、特定のカテゴリに属する各ピクセルの信頼度を表す連続写像となる。 3つの公開データセットを用いて、他の弱教師付き手法に対するMaCoの評価を行った。 結果は、MaCoがすべてのデータセットで競合する手法より優れており、弱い教師付き医療画像セグメンテーションで新しい記録を樹立していることを示している。

Scribble-based weakly supervised segmentation techniques offer comparable performance to fully supervised methods while significantly reducing annotation costs, making them an appealing alternative. Existing methods often rely on auxiliary tasks to enforce semantic consistency and use hard pseudo labels for supervision. However, these methods often overlook the unique requirements of models trained with sparse annotations. Since the model must predict pixel-wise segmentation maps with limited annotations, the ability to handle varying levels of annotation richness is critical. In this paper, we adopt the principle of `from few to more' and propose MaCo, a weakly supervised framework designed for medical image segmentation. MaCo employs masked context modeling (MCM) and continuous pseudo labels (CPL). MCM uses an attention-based masking strategy to disrupt the input image, compelling the model's predictions to remain consistent with those of the original image. CPL converts scribble annotations into continuous pixel-wise labels by applying an exponential decay function to distance maps, resulting in continuous maps that represent the confidence of each pixel belonging to a specific category, rather than using hard pseudo labels. We evaluate MaCo against other weakly supervised methods using three public datasets. The results indicate that MaCo outperforms competing methods across all datasets, setting a new record in weakly supervised medical image segmentation.
翻訳日:2024-08-26 16:09:18 公開日:2024-08-23
# 軽量局所パターン認識のステアケースカスケード融合と構造き裂の長期依存性

Staircase Cascaded Fusion of Lightweight Local Pattern Recognition and Long-Range Dependencies for Structural Crack Segmentation ( http://arxiv.org/abs/2408.12815v1 )

ライセンス: Link先を確認
Hui Liu, Chen Jia, Fan Shi, Xu Cheng, Mianzhao Wang, Shengyong Chen, (参考訳) クラックの局所的なテクスチャと画素依存性を効果的に統合する既存の手法では、キー構造に対する画素レベルの精度でクラックを検出することが大きな課題である。 さらに、これらの手法は、エッジデバイスへの展開を複雑にし、多くのパラメータと相当な計算要求を持つことが多い。 本稿では,最小限の計算資源を用いて高品質な亀裂分割マップを生成する階段型亀裂分割ネットワーク(CrackSCF)を提案する。 我々は,局所的な亀裂パターンや画素の長距離依存性を効果的に捉え,背景雑音を効果的に抑制できる階段列融合モジュールを構築した。 モデルが必要とする計算資源を削減するために,ネットワーク内のすべての畳み込み操作を置き換える軽量畳み込みブロックを導入し,ネットワークの性能に影響を与えることなく,必要な計算とパラメータを著しく削減した。 この手法を評価するために、TUTと呼ばれる挑戦的なベンチマークデータセットを作成し、このデータセットと他の5つの公開データセットについて実験を行った。 実験結果から,本手法は既存の手法に比べて,特に背景雑音の干渉やき裂の詳細なセグメンテーションの処理において有益であることがわかった。 TUTデータセット上のF1とmIoUスコアはそれぞれ0.8382と0.8473であり、最小の計算資源を必要としながら最先端(SOTA)のパフォーマンスを達成する。 コードとデータセットはhttps://github.com/Karl1109/CrackSCFで公開されている。

Detecting cracks with pixel-level precision for key structures is a significant challenge, as existing methods struggle to effectively integrate local textures and pixel dependencies of cracks. Furthermore, these methods often possess numerous parameters and substantial computational requirements, complicating deployment on edge devices. In this paper, we propose a staircase cascaded fusion crack segmentation network (CrackSCF) that generates high-quality crack segmentation maps using minimal computational resources. We constructed a staircase cascaded fusion module that effectively captures local patterns of cracks and long-range dependencies of pixels, and it can suppress background noise well. To reduce the computational resources required by the model, we introduced a lightweight convolution block, which replaces all convolution operations in the network, significantly reducing the required computation and parameters without affecting the network's performance. To evaluate our method, we created a challenging benchmark dataset called TUT and conducted experiments on this dataset and five other public datasets. The experimental results indicate that our method offers significant advantages over existing methods, especially in handling background noise interference and detailed crack segmentation. The F1 and mIoU scores on the TUT dataset are 0.8382 and 0.8473, respectively, achieving state-of-the-art (SOTA) performance while requiring the least computational resources. The code and dataset is available at https://github.com/Karl1109/CrackSCF.
翻訳日:2024-08-26 16:09:18 公開日:2024-08-23
# O-Mamba:O-Shape状態空間モデルによる水中画像強調

O-Mamba: O-shape State-Space Model for Underwater Image Enhancement ( http://arxiv.org/abs/2408.12816v1 )

ライセンス: Link先を確認
Chenyu Dong, Chen Zhao, Weiling Cai, Bo Yang, (参考訳) 水中画像強調(UIE)は複雑な水中照明条件のために重大な課題に直面している。 近年,マンバ法は画像強調作業において有望な成果を上げている。 しかしながら、これらの手法は、空間情報モデリングのみに焦点を当てたVmambaに依存しており、光波長の差分減衰による水中画像のクロスカラーチャネル依存性問題への対処に苦慮し、ディープネットワークの有効利用を制限している。 本稿では,O-mambaという新しいUIEフレームワークを提案する。 O-mamba は O-shaped dual-branch network を用いて、水中画像に最適化された状態空間モデルの効率的な大域的受容場を利用して、空間的および横断的な情報を個別にモデル化する。 2つのブランチ間の情報インタラクションを強化し、マルチスケール情報を有効に活用するために、マルチスケールバイミューチュアルプロモーションモジュールを設計する。 このブランチには、ブランチ内のマルチスケール情報を融合するMS-MoE、ブランチ間の空間情報とチャネル情報の相互作用を行う相互促進モジュール、マルチスケール情報の使用を最大化する循環的マルチスケール最適化戦略が含まれる。 大規模な実験により,本手法はSOTA(State-of-the-art)の結果が得られ,そのコードはhttps://github.com/chenydong/O-Mambaで公開されている。

Underwater image enhancement (UIE) face significant challenges due to complex underwater lighting conditions. Recently, mamba-based methods have achieved promising results in image enhancement tasks. However, these methods commonly rely on Vmamba, which focuses only on spatial information modeling and struggles to deal with the cross-color channel dependency problem in underwater images caused by the differential attenuation of light wavelengths, limiting the effective use of deep networks. In this paper, we propose a novel UIE framework called O-mamba. O-mamba employs an O-shaped dual-branch network to separately model spatial and cross-channel information, utilizing the efficient global receptive field of state-space models optimized for underwater images. To enhance information interaction between the two branches and effectively utilize multi-scale information, we design a Multi-scale Bi-mutual Promotion Module. This branch includes MS-MoE for fusing multi-scale information within branches, Mutual Promotion module for interaction between spatial and channel information across branches, and Cyclic Multi-scale optimization strategy to maximize the use of multi-scale information. Extensive experiments demonstrate that our method achieves state-of-the-art (SOTA) results.The code is available at https://github.com/chenydong/O-Mamba.
翻訳日:2024-08-26 16:09:18 公開日:2024-08-23
# 拡張化学空間被覆のための分子力学力場のデータ駆動パラメトリゼーション

Data-Driven Parametrization of Molecular Mechanics Force Fields for Expansive Chemical Space Coverage ( http://arxiv.org/abs/2408.12817v1 )

ライセンス: Link先を確認
Tianze Zheng, Ailun Wang, Xu Han, Yu Xia, Xingyuan Xu, Jiawei Zhan, Yu Liu, Yang Chen, Zhi Wang, Xiaojie Wu, Sheng Gong, Wen Yan, (参考訳) 力場は、計算薬物発見のための分子動力学シミュレーションにおいて重要な要素である。 分子力学(MM)の制限された機能形式の制約の中で高い精度を達成し、高い計算効率を実現する必要がある。 合成可能な化学空間の急速な拡張により、伝統的なルックアップテーブルアプローチは重大な課題に直面している。 本研究では, 薬物様分子に対するアンバー互換力場であるByteFFを開発するために, 最新のデータ駆動手法を用いてこの問題に対処する。 ByteFFを作成するために,B3LYP-D3(BJ)/DZVP理論において,拡張性と高度に多様な分子データセットを生成した。 このデータセットには、240万の最適化された分子フラグメントジオメトリと解析的なヘッセン行列、および3200万のトーションプロファイルが含まれている。 次に、このデータセットに基づいて、エッジ強化された対称性保持分子グラフニューラルネットワーク(GNN)をトレーニングし、慎重に最適化されたトレーニング戦略を採用した。 本モデルでは, 薬物様分子のすべての結合および非結合MM力場パラメータを, 広い化学空間にわたって同時に予測する。 ByteFFは、様々なベンチマークデータセットで最先端のパフォーマンスを示し、緩和されたジオメトリ、ねじれエネルギープロファイル、コンフォメーションエネルギーと力の予測に優れています。 その例外的な精度と化学空間の広がりにより、ByteFFは、計算薬物発見の複数の段階において貴重なツールとなる。

A force field is a critical component in molecular dynamics simulations for computational drug discovery. It must achieve high accuracy within the constraints of molecular mechanics' (MM) limited functional forms, which offers high computational efficiency. With the rapid expansion of synthetically accessible chemical space, traditional look-up table approaches face significant challenges. In this study, we address this issue using a modern data-driven approach, developing ByteFF, an Amber-compatible force field for drug-like molecules. To create ByteFF, we generated an expansive and highly diverse molecular dataset at the B3LYP-D3(BJ)/DZVP level of theory. This dataset includes 2.4 million optimized molecular fragment geometries with analytical Hessian matrices, along with 3.2 million torsion profiles. We then trained an edge-augmented, symmetry-preserving molecular graph neural network (GNN) on this dataset, employing a carefully optimized training strategy. Our model predicts all bonded and non-bonded MM force field parameters for drug-like molecules simultaneously across a broad chemical space. ByteFF demonstrates state-of-the-art performance on various benchmark datasets, excelling in predicting relaxed geometries, torsional energy profiles, and conformational energies and forces. Its exceptional accuracy and expansive chemical space coverage make ByteFF a valuable tool for multiple stages of computational drug discovery.
翻訳日:2024-08-26 16:09:18 公開日:2024-08-23
# ストリートビュー画像のマルチモーダル基礎モデルにおけるコミットメントと難易度の検討

Examining the Commitments and Difficulties Inherent in Multimodal Foundation Models for Street View Imagery ( http://arxiv.org/abs/2408.12821v1 )

ライセンス: Link先を確認
Zhenyuan Yang, Xuhui Lin, Qinyi He, Ziye Huang, Zhengliang Liu, Hanqi Jiang, Peng Shu, Zihao Wu, Yiwei Li, Stephen Law, Gengchen Mai, Tianming Liu, Tao Yang, (参考訳) 大規模言語モデル(LLM)とマルチモーダル基礎モデル(FM)の出現は、視覚と言語を統合するアプリケーションへの関心を高めている。 本稿では,ストリートビュー画像,構築環境,インテリアにおけるChatGPT-4VとGemini Proの機能について,様々なタスクにおける性能評価を行った。 この評価には、ストリートビュー画像における通りの家具の識別、歩行者と自動車の数、道路幅の測定、ビル機能分類、建築年齢分析、ビルの高さ分析、ビル構造分類、インテリアルーム分類、インテリアデザイン解析、インテリア家具数、インテリアインテリア長さ測定が含まれる。 その結果, 長さ測定, スタイル解析, 質問応答, 基本画像理解の習熟度が明らかとなった。 ゼロショット学習は潜在的な可能性を示すが、性能は問題領域や画像の複雑さによって異なる。 本研究は,ストリートビューイメージ,ビルディング環境,インテリアにおける実践的課題に対するマルチモーダル基礎モデルの強みと弱みに関する新たな知見を提供する。 全体としては、基礎的なマルチモーダルインテリジェンスを示し、コンピュータビジョンと言語が交差する分野間応用を促進するためのFMの可能性を強調している。

The emergence of Large Language Models (LLMs) and multimodal foundation models (FMs) has generated heightened interest in their applications that integrate vision and language. This paper investigates the capabilities of ChatGPT-4V and Gemini Pro for Street View Imagery, Built Environment, and Interior by evaluating their performance across various tasks. The assessments include street furniture identification, pedestrian and car counts, and road width measurement in Street View Imagery; building function classification, building age analysis, building height analysis, and building structure classification in the Built Environment; and interior room classification, interior design style analysis, interior furniture counts, and interior length measurement in Interior. The results reveal proficiency in length measurement, style analysis, question answering, and basic image understanding, but highlight limitations in detailed recognition and counting tasks. While zero-shot learning shows potential, performance varies depending on the problem domains and image complexities. This study provides new insights into the strengths and weaknesses of multimodal foundation models for practical challenges in Street View Imagery, Built Environment, and Interior. Overall, the findings demonstrate foundational multimodal intelligence, emphasizing the potential of FMs to drive forward interdisciplinary applications at the intersection of computer vision and language.
翻訳日:2024-08-26 16:09:18 公開日:2024-08-23
# WSI分類のためのMerge Up-augmented Semi-Weakly Supervised Learning

MergeUp-augmented Semi-Weakly Supervised Learning for WSI Classification ( http://arxiv.org/abs/2408.12825v1 )

ライセンス: Link先を確認
Mingxi Ouyang, Yuqiu Fu, Renao Yan, ShanShan Shi, Xitong Ling, Lianghui Zhu, Yonghong He, Tian Guan, (参考訳) 計算病理学と人工知能の最近の進歩は、スライド画像全体(WSI)分類を大幅に改善した。 しかし、WSIのギガピクセルの解像度と手動アノテーションの不足は、重大な課題をもたらします。 多重インスタンス学習(MIL)は、WSI分類のための弱い教師付き学習手法である。 近年, 擬似バッグ拡張を用いた研究により, モデルが様々なデータを学ぶことを奨励し, モデルの性能を高めていることが明らかとなった。 親のラベルを直接継承する一方で、トレーニング中に誤ラベルをすることで、より多くのノイズを発生させることができる。 この問題に対処するために、WSI分類タスクを弱教師付き学習から半弱教師付き学習に変換する。SWS-MILでは、アダプティブ擬似バッグ拡張(AdaPse)を用いて閾値戦略に基づいてラベル付きおよびラベルなしデータを割り当てる。 学習者(student-Teacher)パターンを用いることで、優先度の低いバッグにバッグをマージしてカテゴリ間の情報を強化し、トレーニングデータの多様性を高める機能強化手法であるMergeUpを導入する。 CAMELYON-16, BRACS, TCGA-LUNGデータセットによる実験結果から, 既存の最先端手法よりも本手法が優れていることを示すとともに, WSI分類における有効性を確認した。

Recent advancements in computational pathology and artificial intelligence have significantly improved whole slide image (WSI) classification. However, the gigapixel resolution of WSIs and the scarcity of manual annotations present substantial challenges. Multiple instance learning (MIL) is a promising weakly supervised learning approach for WSI classification. Recently research revealed employing pseudo bag augmentation can encourage models to learn various data, thus bolstering models' performance. While directly inheriting the parents' labels can introduce more noise by mislabeling in training. To address this issue, we translate the WSI classification task from weakly supervised learning to semi-weakly supervised learning, termed SWS-MIL, where adaptive pseudo bag augmentation (AdaPse) is employed to assign labeled and unlabeled data based on a threshold strategy. Using the "student-teacher" pattern, we introduce a feature augmentation technique, MergeUp, which merges bags with low-priority bags to enhance inter-category information, increasing training data diversity. Experimental results on the CAMELYON-16, BRACS, and TCGA-LUNG datasets demonstrate the superiority of our method over existing state-of-the-art approaches, affirming its efficacy in WSI classification.
翻訳日:2024-08-26 15:59:33 公開日:2024-08-23
# 不確実性を考慮した平均オピニオンスコア予測

Uncertainty-Aware Mean Opinion Score Prediction ( http://arxiv.org/abs/2408.12829v1 )

ライセンス: Link先を確認
Hui Wang, Shiwan Zhao, Jiaming Zhou, Xiguang Zheng, Haoqin Sun, Xuechen Wang, Yong Qin, (参考訳) 平均オピニオンスコア(MOS)予測は特定の領域で大きく進歩した。 しかし,様々なサンプルを対象としたMOS予測モデルの不安定な性能は,これらのシステムの実用化において現在進行中の課題を呈している。 本稿では,不確実性モデリングの欠如が,MOS予測システムによる実世界やオープン世界への適応を妨げていることを指摘する。 我々は,MOS予測タスクにおける不確実性の原因を解析し,ヘテロセダスティック回帰とモンテカルロドロップアウトを別々にモデル化する不確実性を考慮したMOS予測システムの構築を提案する。 実験の結果,システムは不確実性をよく捉え,選択的予測や領域外検出を行うことができることがわかった。 このような機能は、様々な実環境とオープンワールド環境におけるMOSシステムの実用性を大幅に向上させる。

Mean Opinion Score (MOS) prediction has made significant progress in specific domains. However, the unstable performance of MOS prediction models across diverse samples presents ongoing challenges in the practical application of these systems. In this paper, we point out that the absence of uncertainty modeling is a significant limitation hindering MOS prediction systems from applying to the real and open world. We analyze the sources of uncertainty in the MOS prediction task and propose to establish an uncertainty-aware MOS prediction system that models aleatory uncertainty and epistemic uncertainty by heteroscedastic regression and Monte Carlo dropout separately. The experimental results show that the system captures uncertainty well and is capable of performing selective prediction and out-of-domain detection. Such capabilities significantly enhance the practical utility of MOS systems in diverse real and open-world environments.
翻訳日:2024-08-26 15:59:33 公開日:2024-08-23
# SAMBO-RL:シフト対応モデルに基づくオフライン強化学習

SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning ( http://arxiv.org/abs/2408.12830v1 )

ライセンス: Link先を確認
Wang Luo, Haoran Li, Zicheng Zhang, Congying Han, Jiayu Lv, Tiande Guo, (参考訳) モデルベースのオフライン強化学習は、オフラインデータセットとモデルダイナミクスに基づくポリシーを、直接的な実環境の相互作用なしに訓練する。 しかし、この方法は分布シフトによって本質的に挑戦される。 それまでのアプローチでは、主に、モデル力学における法外的なメカニズムとヒューリスティックな不確実性を直接利用してこの問題に取り組むことに重点を置いていたが、それらは矛盾した目標をもたらし、統一された理論基盤を欠いていた。 本稿では,問題をモデルバイアスとポリシーシフトという2つの重要な要素に分解する包括的分析を行う。 我々は,これらの要因が価値関数推定の不正確さにつながることを示すための理論的洞察と実証的証拠の両方を提供し,政策学習に暗黙の制約を課す。 これらの課題に対処するために、統一確率的推論フレームワークにおけるモデルバイアスとポリシーシフトの調整項を導出する。 これらの調整はバニラ報酬関数にシームレスに統合され、価値学習の洗練と政策トレーニングの促進を目的とした、新しいShifts-aware Reward(SAR)を作成する。 さらに、シフト対応モデルに基づくオフライン強化学習(SAMBO-RL)を導入し、政策最適化のためのSARを効率的に訓練する実践的なフレームワークを提案する。 実験的に,SARは分散シフトを効果的に軽減し,SAMBO-RLは様々なベンチマークにおいて優れた性能を示し,その実用性を実証し,理論解析の妥当性を検証した。

Model-based Offline Reinforcement Learning trains policies based on offline datasets and model dynamics, without direct real-world environment interactions. However, this method is inherently challenged by distribution shift. Previous approaches have primarily focused on tackling this issue directly leveraging off-policy mechanisms and heuristic uncertainty in model dynamics, but they resulted in inconsistent objectives and lacked a unified theoretical foundation. This paper offers a comprehensive analysis that disentangles the problem into two key components: model bias and policy shift. We provide both theoretical insights and empirical evidence to demonstrate how these factors lead to inaccuracies in value function estimation and impose implicit restrictions on policy learning. To address these challenges, we derive adjustment terms for model bias and policy shift within a unified probabilistic inference framework. These adjustments are seamlessly integrated into the vanilla reward function to create a novel Shifts-aware Reward (SAR), aiming at refining value learning and facilitating policy training. Furthermore, we introduce Shifts-aware Model-based Offline Reinforcement Learning (SAMBO-RL), a practical framework that efficiently trains classifiers to approximate the SAR for policy optimization. Empirically, we show that SAR effectively mitigates distribution shift, and SAMBO-RL demonstrates superior performance across various benchmarks, underscoring its practical effectiveness and validating our theoretical analysis.
翻訳日:2024-08-26 15:59:33 公開日:2024-08-23
# LIMP: 大規模言語モデルによるIntent-Awareモビリティ予測

LIMP: Large Language Model Enhanced Intent-aware Mobility Prediction ( http://arxiv.org/abs/2408.12832v1 )

ライセンス: Link先を確認
Songwei Li, Jie Feng, Jiawei Chi, Xinyuan Hu, Xiaomeng Zhao, Fengli Xu, (参考訳) 都市計画や交通管理といった応用には人間の移動予測が不可欠であるが、人間の行動の背後にある複雑で暗黙的な意図のため、依然として困難である。 既存のモデルは、主に時空間パターンに注目し、動きを管理する基本的な意図に注意を払わない。 大規模言語モデル(LLM)の最近の進歩は、コモンセンス推論をモビリティ予測に組み込むための、有望な代替研究角度を提供する。 しかし、LLMはモビリティの意図推論のためにネイティブに構築されていないため、スケーラビリティの問題や時空間モデルとの統合の難しさにも直面するため、これは自明な問題である。 これらの課題に対処するため、我々は新しいLIMP(LLMs for Intent-ware Mobility Prediction)フレームワークを提案する。 特に、LIMPは、移動意図推論のための LLM の常識推論力を解き放つために、A2I (Analyze-Abstract-Infer) エージェントワークフローを導入した。 さらに,商業LLMから小規模のオープンソース言語モデルへ推論パワーを伝達する効率的な微調整手法を設計し,LIMPのスケーラビリティを数百万のモビリティレコードに保証する。 さらに,LLMの意図推論能力を効果的に活用するために,変圧器を用いた意図認識型モビリティ予測モデルを提案する。 2つの実世界のデータセットで評価され、LIMPはベースラインモデルよりも大幅に優れ、次の位置予測と効果的な意図推論の精度が向上した。 意図認識型モビリティ予測の解釈可能性は、LIMPフレームワークが現実世界のアプリケーションにもたらす可能性を強調します。 コードとデータはhttps://github.com/tsinghua-fib-lab/LIMP で確認できる。

Human mobility prediction is essential for applications like urban planning and transportation management, yet it remains challenging due to the complex, often implicit, intentions behind human behavior. Existing models predominantly focus on spatiotemporal patterns, paying less attention to the underlying intentions that govern movements. Recent advancements in large language models (LLMs) offer a promising alternative research angle for integrating commonsense reasoning into mobility prediction. However, it is a non-trivial problem because LLMs are not natively built for mobility intention inference, and they also face scalability issues and integration difficulties with spatiotemporal models. To address these challenges, we propose a novel LIMP (LLMs for Intent-ware Mobility Prediction) framework. Specifically, LIMP introduces an "Analyze-Abstract-Infer" (A2I) agentic workflow to unleash LLM's commonsense reasoning power for mobility intention inference. Besides, we design an efficient fine-tuning scheme to transfer reasoning power from commercial LLM to smaller-scale, open-source language model, ensuring LIMP's scalability to millions of mobility records. Moreover, we propose a transformer-based intention-aware mobility prediction model to effectively harness the intention inference ability of LLM. Evaluated on two real-world datasets, LIMP significantly outperforms baseline models, demonstrating improved accuracy in next-location prediction and effective intention inference. The interpretability of intention-aware mobility prediction highlights our LIMP framework's potential for real-world applications. Codes and data can be found in https://github.com/tsinghua-fib-lab/LIMP .
翻訳日:2024-08-26 15:59:33 公開日:2024-08-23
# S3Simulator:水中画像解析のためのベンチマークサイドスキャンソナーシミュレータデータセット

S3Simulator: A benchmarking Side Scan Sonar Simulator dataset for Underwater Image Analysis ( http://arxiv.org/abs/2408.12833v1 )

ライセンス: Link先を確認
Kamal Basha S, Athira Nambiar, (参考訳) 音響ソナーイメージングシステムは、民間と軍事の両方で水中監視に広く利用されている。 しかし、人工知能(AI)モデルをトレーニングするための高品質なソナーデータセットを取得することは、限られたデータ可用性、財務的制約、データの機密性といった課題に直面している。 これらの課題を克服するために,S3Simulator データセットと呼ばれる,Simulated Side-Scan Sonar 画像のベンチマークデータセットを提案する。 我々のデータセットは高度なシミュレーション技術を利用して水中条件を正確に再現し、多様な合成ソナー画像を生成する。 特に、最先端のAIセグメンテーションツールであるSAM(Seegment Anything Model)は、実際のシーンから船や飛行機などのオブジェクトイメージを最適に分離し、セグメンテーションするために利用される。 さらに,3次元モデルの作成や,現実的な環境下での最適可視化に,自己CADやGazeboなどのシミュレーションソフトウェアなどの高度なコンピュータ支援設計ツールが用いられている。 さらに、データの品質向上のために、ソナー画像の解析のためのAIモデルを可能にするために、様々な計算画像技術が採用されている。 水中物体分類のためのAIモデルの性能を評価するため,S3シミュレータと実ソナーデータセットを用いて大規模解析を行った。 実験の結果,S3Simulatorデータセットは水中画像解析研究のための有望なベンチマークデータセットであることがわかった。 https://github.com/bashakamal/S3Simulator.com

Acoustic sonar imaging systems are widely used for underwater surveillance in both civilian and military sectors. However, acquiring high-quality sonar datasets for training Artificial Intelligence (AI) models confronts challenges such as limited data availability, financial constraints, and data confidentiality. To overcome these challenges, we propose a novel benchmark dataset of Simulated Side-Scan Sonar images, which we term as 'S3Simulator dataset'. Our dataset creation utilizes advanced simulation techniques to accurately replicate underwater conditions and produce diverse synthetic sonar imaging. In particular, the cutting-edge AI segmentation tool i.e. Segment Anything Model (SAM) is leveraged for optimally isolating and segmenting the object images, such as ships and planes, from real scenes. Further, advanced Computer-Aided Design tools i.e. SelfCAD and simulation software such as Gazebo are employed to create the 3D model and to optimally visualize within realistic environments, respectively. Further, a range of computational imaging techniques are employed to improve the quality of the data, enabling the AI models for the analysis of the sonar images. Extensive analyses are carried out on S3simulator as well as real sonar datasets to validate the performance of AI models for underwater object classification. Our experimental results highlight that the S3Simulator dataset will be a promising benchmark dataset for research on underwater image analysis. https://github.com/bashakamal/S3Simulator.
翻訳日:2024-08-26 15:59:33 公開日:2024-08-23
# CLLMFS:Few-Shot Named Entity Recognitionのための比較学習型大規模言語モデルフレームワーク

CLLMFS: A Contrastive Learning enhanced Large Language Model Framework for Few-Shot Named Entity Recognition ( http://arxiv.org/abs/2408.12834v1 )

ライセンス: Link先を確認
Yafeng Zhang, Zilan Yu, Yuang Huang, Jing Tang, (参考訳) ラベル付きデータしか持たない名前付きエンティティを識別するタスクである名前付きエンティティ認識(NER)は、自然言語処理においてますます重要になっている。 既存の手法は、様々なプロンプトモードによるラベルセマンティクスの強化やメートル法学習技術の適用など、いくつかの効果を示してきたが、その性能は、事前訓練されたモデルに豊富な知識が欠如していることから、様々な領域において限られた堅牢性を示している。 この問題に対処するために,Few-Shot Named Entity Recognition のための Contrastive Learning enhanced Large Language Model (LLM) フレームワーク CLLMFS を提案する。 LLMの内部表現が下流タスクに与える影響を考慮すると、CLLMFSはローランド適応(LoRA)と、特に数発のNERに適したコントラスト学習機構を統合している。 モデルの内部表現を強化することにより、CLLMFSはエンティティ境界認識能力とエンティティ認識精度の両方を効果的に改善する。 提案手法は,F1スコアの既定性能を2.58 %から97.74 %まで改善した。 さらに、複数のデータセット上で行ったドメイン間NER実験により、本手法の堅牢な一般化能力をさらに検証した。 私たちのコードは近い将来リリースされるでしょう。

Few-shot Named Entity Recognition (NER), the task of identifying named entities with only a limited amount of labeled data, has gained increasing significance in natural language processing. While existing methodologies have shown some effectiveness, such as enriching label semantics through various prompting modes or employing metric learning techniques, their performance exhibits limited robustness across diverse domains due to the lack of rich knowledge in their pre-trained models. To address this issue, we propose CLLMFS, a Contrastive Learning enhanced Large Language Model (LLM) Framework for Few-Shot Named Entity Recognition, achieving promising results with limited training data. Considering the impact of LLM's internal representations on downstream tasks, CLLMFS integrates Low-Rank Adaptation (LoRA) and contrastive learning mechanisms specifically tailored for few-shot NER. By enhancing the model's internal representations, CLLMFS effectively improves both entity boundary awareness ability and entity recognition accuracy. Our method has achieved state-of-the-art performance improvements on F1-score ranging from 2.58\% to 97.74\% over existing best-performing methods across several recognized benchmarks. Furthermore, through cross-domain NER experiments conducted on multiple datasets, we have further validated the robust generalization capability of our method. Our code will be released in the near future.
翻訳日:2024-08-26 15:59:33 公開日:2024-08-23
# LIME-based Explainable Artificial Intelligence を用いた水中SONAR画像の分類と解析

Underwater SONAR Image Classification and Analysis using LIME-based Explainable Artificial Intelligence ( http://arxiv.org/abs/2408.12837v1 )

ライセンス: Link先を確認
Purushothaman Natarajan, Athira Nambiar, (参考訳) ディープラーニング技術は、人間の認識を模倣し、複雑な意思決定プロセスを自動化することによって、画像分類に革命をもたらした。 しかし、特に防衛などの高セキュリティ領域において、AIシステムの野生への展開は、モデルの説明可能性の欠如によって抑制されている。 この目的のために、eXplainable AI(XAI)は、ディープニューラルネットワークの未説明の隠されたブラックボックスの性質を探求することを目的とした、新たな研究分野である。 本論文は,水中画像分類結果の解釈にeXplainable Artificial Intelligence (XAI) ツールを応用した手法である。 本研究は,シーベッドオブジェクトKLSGデータセット,カメラSONARデータセット,地雷SONAR画像データセット,SCTDデータセットなど,さまざまなソースから派生したカスタムデータセットを用いて,SONAR画像分類の領域について検討した。 VGG16, ResNet50, InceptionV3, DenseNet121などのベンチマーク畳み込みニューラルネットワーク(CNN)アーキテクチャを用いた画像分類のための転写学習手法の広範な解析を行う。 この分類モデルの上に、ポストホックなXAIテクニックであるvizがある。 LIME(Local Interpretable Model-Agnostic Explanations)は、モデルの決定を透過的に正当化するために、入力データを局所的に摂動させて予測がどのように変化するかを確認する。 さらに、サブモジュールピックLIME(SP-LIME)は、画像に特有のLIMEのバージョンであり、サブモジュールピックに基づいて画像を摂動させる。 この目的のために、クイックシフト(Quickshift)とシンプル線形反復クラスタリング(Simple Linear Iterative Clustering, SLIC)という2つの部分モジュラー最適化アルゴリズムをサブモジュラーピックに活用する。 XAI手法の広範な分析は、結果の解釈可能性をより人間に準拠した方法で強調することで、信頼性と信頼性を高めます。

Deep learning techniques have revolutionized image classification by mimicking human cognition and automating complex decision-making processes. However, the deployment of AI systems in the wild, especially in high-security domains such as defence, is curbed by the lack of explainability of the model. To this end, eXplainable AI (XAI) is an emerging area of research that is intended to explore the unexplained hidden black box nature of deep neural networks. This paper explores the application of the eXplainable Artificial Intelligence (XAI) tool to interpret the underwater image classification results, one of the first works in the domain to the best of our knowledge. Our study delves into the realm of SONAR image classification using a custom dataset derived from diverse sources, including the Seabed Objects KLSG dataset, the camera SONAR dataset, the mine SONAR images dataset, and the SCTD dataset. An extensive analysis of transfer learning techniques for image classification using benchmark Convolutional Neural Network (CNN) architectures such as VGG16, ResNet50, InceptionV3, DenseNet121, etc. is carried out. On top of this classification model, a post-hoc XAI technique, viz. Local Interpretable Model-Agnostic Explanations (LIME) are incorporated to provide transparent justifications for the model's decisions by perturbing input data locally to see how predictions change. Furthermore, Submodular Picks LIME (SP-LIME) a version of LIME particular to images, that perturbs the image based on the submodular picks is also extensively studied. To this end, two submodular optimization algorithms i.e. Quickshift and Simple Linear Iterative Clustering (SLIC) are leveraged towards submodular picks. The extensive analysis of XAI techniques highlights interpretability of the results in a more human-compliant way, thus boosting our confidence and reliability.
翻訳日:2024-08-26 15:59:33 公開日:2024-08-23
# 肺癌レベル分類のための機械学習モデル探索:比較MLアプローチ

Exploring Machine Learning Models for Lung Cancer Level Classification: A comparative ML Approach ( http://arxiv.org/abs/2408.12838v1 )

ライセンス: Link先を確認
Mohsen Asghari Ilani, Saba Moftakhar Tehran, Ashkan Kavei, Hamed Alizadegan, (参考訳) 本稿では,肺癌の診断精度と予後を改善するために,機械学習(ML)モデルについて検討する。 パラメータチューニングと厳密な評価により,様々なMLアルゴリズムを評価する。 子どもの体重の最小化や学習率のモニタリングといったテクニックは、オーバーフィッティングを減らし、パフォーマンスを最適化するために使われました。 以上の結果から,Deep Neural Network(DNN)モデルの全フェーズにわたるロバストな性能が明らかになった。 投票やバッグングを含むアンサンブル手法も、予測精度と堅牢性を高めることを約束している。 しかし、Sigmoidカーネルを使ったSVM(Support Vector Machine)モデルは、さらなる改良の必要性を示唆する課題に直面した。 本研究は,MLに基づく肺がん分類に関する知見を提供し,モデル性能を最適化し,腫瘍治療における診断精度を向上させるためのパラメータチューニングの重要性を強調した。

This paper explores machine learning (ML) models for classifying lung cancer levels to improve diagnostic accuracy and prognosis. Through parameter tuning and rigorous evaluation, we assess various ML algorithms. Techniques like minimum child weight and learning rate monitoring were used to reduce overfitting and optimize performance. Our findings highlight the robust performance of Deep Neural Network (DNN) models across all phases. Ensemble methods, including voting and bagging, also showed promise in enhancing predictive accuracy and robustness. However, Support Vector Machine (SVM) models with the Sigmoid kernel faced challenges, indicating a need for further refinement. Overall, our study provides insights into ML-based lung cancer classification, emphasizing the importance of parameter tuning to optimize model performance and improve diagnostic accuracy in oncological care.
翻訳日:2024-08-26 15:59:33 公開日:2024-08-23
# HGNAS:エッジデバイスのためのハードウェア対応グラフニューラルネットワーク検索

HGNAS: Hardware-Aware Graph Neural Architecture Search for Edge Devices ( http://arxiv.org/abs/2408.12840v1 )

ライセンス: Link先を確認
Ao Zhou, Jianlei Yang, Yingjie Qi, Tong Qiao, Yumeng Shi, Cenlin Duan, Weisheng Zhao, Chunming Hu, (参考訳) グラフニューラルネットワーク(GNN)は、最先端(SOTA)のパフォーマンスのため、ポイントクラウド処理などのグラフベースの学習タスクで人気が高まっている。 それにもかかわらず、研究コミュニティは主にモデル表現性の改善に重点を置いており、リアルタイム要件と限られたリソースを持つエッジシナリオのための効率的なGNNモデルを設計する方法を考慮していない。 既存のGNNモデルを調べると、プラットフォーム間でのさまざまな実行と頻繁なout-Of-Memory(OOM)問題を明らかにし、ハードウェア対応のGNN設計の必要性を強調している。 この課題に対処するために、リソース制約エッジデバイス、すなわちHGNASに適した、ハードウェア対応の新たなグラフニューラルネットワーク検索フレームワークを提案する。 ハードウェア認識を実現するため、HGNASはGNNハードウェアの性能予測器を統合し、ミリ秒でGNNのレイテンシとピークメモリ使用率を評価する。 一方,推定時のGNNメモリ使用率について検討し,予測結果と組み合わせた場合のアーキテクチャ評価の堅牢性を高めるため,ピークメモリ推定手法を提案する。 さらに、HGNASは、GNNパラダイムを分離することで、極端なパフォーマンスアーキテクチャの探索を可能にする、きめ細かい設計空間を構築している。 さらに、多段階階層型検索戦略を活用して、巨大な候補のナビゲーションを容易にすることにより、単一の検索時間をGPU時間に短縮することができる。 我々の知る限りでは、HGNASはエッジデバイスのための最初の自動GNN設計フレームワークであり、また異なるプラットフォーム間でGNNのハードウェア認識を達成するための最初の取り組みでもある。 様々なアプリケーションやエッジデバイスにわたる大規模な実験は、HGNASの優位性を証明している。 ModelNet40のDGCNNと比較して、最大10.6倍のスピードアップと82.5%のピークメモリ削減を実現している。

Graph Neural Networks (GNNs) are becoming increasingly popular for graph-based learning tasks such as point cloud processing due to their state-of-the-art (SOTA) performance. Nevertheless, the research community has primarily focused on improving model expressiveness, lacking consideration of how to design efficient GNN models for edge scenarios with real-time requirements and limited resources. Examining existing GNN models reveals varied execution across platforms and frequent Out-Of-Memory (OOM) problems, highlighting the need for hardware-aware GNN design. To address this challenge, this work proposes a novel hardware-aware graph neural architecture search framework tailored for resource constraint edge devices, namely HGNAS. To achieve hardware awareness, HGNAS integrates an efficient GNN hardware performance predictor that evaluates the latency and peak memory usage of GNNs in milliseconds. Meanwhile, we study GNN memory usage during inference and offer a peak memory estimation method, enhancing the robustness of architecture evaluations when combined with predictor outcomes. Furthermore, HGNAS constructs a fine-grained design space to enable the exploration of extreme performance architectures by decoupling the GNN paradigm. In addition, the multi-stage hierarchical search strategy is leveraged to facilitate the navigation of huge candidates, which can reduce the single search time to a few GPU hours. To the best of our knowledge, HGNAS is the first automated GNN design framework for edge devices, and also the first work to achieve hardware awareness of GNNs across different platforms. Extensive experiments across various applications and edge devices have proven the superiority of HGNAS. It can achieve up to a 10.6x speedup and an 82.5% peak memory reduction with negligible accuracy loss compared to DGCNN on ModelNet40.
翻訳日:2024-08-26 15:59:33 公開日:2024-08-23
# 機械学習を用いた新型コロナウイルスの確率予測 : 感染的アプローチ

COVID-19 Probability Prediction Using Machine Learning: An Infectious Approach ( http://arxiv.org/abs/2408.12841v1 )

ライセンス: Link先を確認
Mohsen Asghari Ilani, Saba Moftakhar Tehran, Ashkan Kavei, Arian Radmehr, (参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、ワクチンの普及にもかかわらず、世界的な公衆衛生にとって大きな課題となっている。 この病気の早期発見は、感染を抑制し、公衆衛生システムへの影響を緩和する上で、依然として最重要である。 本研究は、新型コロナウイルス感染確率を予測するための高度な機械学習(ML)技術の適用について検討した。 我々はXGBoost, LGBM, AdaBoost, Logistic Regression, Decision Tree, RandomForest, CatBoost, KNN, Deep Neural Networks (DNN) などのMLモデルの有効性について厳密な調査を行った。 4000のサンプルからなるデータセットを活用し、トレーニングに3200、テストに800を割り当てた。 以上の結果から,Deep Neural Networks (DNN) が最高性能モデルとして登場し,精度が向上し,リコール指標が得られた。 精度は89%で、DNNは新型コロナウイルスの早期検出において顕著な可能性を誇示している。 これは、複雑なデータパターンを活用して新型コロナウイルスの感染を正確に識別する、ディープラーニングアプローチの有効性を裏付けるものだ。 本研究は,現在進行中のパンデミックの早期発見活動の強化において,機械学習,特に深層学習方法論が重要な役割を担っていることを明らかにする。 新型コロナウイルスの感染確率を正確に予測するDNNの成功は、先進的な技術を活用して感染症に対処する研究と開発の重要性を浮き彫りにしている。

The ongoing COVID-19 pandemic continues to pose significant challenges to global public health, despite the widespread availability of vaccines. Early detection of the disease remains paramount in curbing its transmission and mitigating its impact on public health systems. In response, this study delves into the application of advanced machine learning (ML) techniques for predicting COVID-19 infection probability. We conducted a rigorous investigation into the efficacy of various ML models, including XGBoost, LGBM, AdaBoost, Logistic Regression, Decision Tree, RandomForest, CatBoost, KNN, and Deep Neural Networks (DNN). Leveraging a dataset comprising 4000 samples, with 3200 allocated for training and 800 for testing, our experiment offers comprehensive insights into the performance of these models in COVID-19 prediction. Our findings reveal that Deep Neural Networks (DNN) emerge as the top-performing model, exhibiting superior accuracy and recall metrics. With an impressive accuracy rate of 89%, DNN demonstrates remarkable potential in early COVID-19 detection. This underscores the efficacy of deep learning approaches in leveraging complex data patterns to identify COVID-19 infections accurately. This study underscores the critical role of machine learning, particularly deep learning methodologies, in augmenting early detection efforts amidst the ongoing pandemic. The success of DNN in accurately predicting COVID-19 infection probability highlights the importance of continued research and development in leveraging advanced technologies to combat infectious diseases.
翻訳日:2024-08-26 15:59:33 公開日:2024-08-23
# 保持データを用いた分別的時空間軌道合成

Differentially Private Spatiotemporal Trajectory Synthesis with Retained Data Utility ( http://arxiv.org/abs/2408.12842v1 )

ライセンス: Link先を確認
Yuqing Ge, Yunsheng Wang, Nana Wang, (参考訳) GPS対応デバイスから収集した時空間軌跡は、都市計画や交通分析など、多くのアプリケーションにとって極めて重要である。 プライバシリークの懸念から、多くのプライバシ保護トラジェクトリパブリッシング手法が提案されている。 しかし、そのほとんどはプライバシー保護と優れたデータユーティリティのバランスが取れなかった。 本稿では,1次マルコフ過程の開始時空間分布と1次マルコフ過程からなるモデルを用いて,差分的にプライベートな時空間軌道合成器DP-STTSを提案する。 特にDP-STTSは, モデルサイズが制限され, ノイズ耐性が向上できるような, 生の時空間軌跡を隣接する立方体に識別する。 次に、次の位置点抽出にマルコフプロセスを利用する。 モデルに差分プライバシー(DP)の下でノイズを加えた後、ノイズモデルから実際の軌跡の本質的空間的および時間的特性を保持する合成軌跡を生成する。 ある実生活データセットの実験は、DP-STTSが優れたデータユーティリティを提供することを示した。 私たちのコードはhttps://github.com/Etherious72/DP-STTS.comで利用可能です。

Spatiotemporal trajectories collected from GPS-enabled devices are of vital importance to many applications, such as urban planning and traffic analysis. Due to the privacy leakage concerns, many privacy-preserving trajectory publishing methods have been proposed. However, most of them could not strike a good balance between privacy protection and good data utility. In this paper, we propose DP-STTS, a differentially private spatiotemporal trajectory synthesizer with high data utility, which employs a model composed of a start spatiotemporal cube distribution and a 1-order Markov process. Specially, DP-STTS firstly discretizes the raw spatiotemporal trajectories into neighboring cubes, such that the model size is limited and the model's tolerance for noise could be enhanced. Then, a Markov process is utilized for the next location point picking. After adding noise under differential privacy (DP) to the model, synthetic trajectories that preserve essential spatial and temporal characteristics of the real trajectories are generated from the noisy model. Experiments on one real-life dataset demonstrate that DP-STTS provides good data utility. Our code is available at https://github.com/Etherious72/DP-STTS.
翻訳日:2024-08-26 15:59:33 公開日:2024-08-23
# 画面テキストセンシングによる影響状態の予測

Predicting Affective States from Screen Text Sentiment ( http://arxiv.org/abs/2408.12844v1 )

ライセンス: Link先を確認
Songyan Teng, Tianyi Zhang, Simon D'Alfonso, Vassilis Kostakos, (参考訳) モバイルセンシング技術の普及により、スマートフォンセンサからの邪魔にならないデータ収集を通じて、様々な生理的、行動的現象の研究が可能になった。 このアプローチは、個人の身体状態と精神状態に対するリアルタイムな洞察を提供し、パーソナライズされた治療と介入の機会を生み出す。 しかし、スマートフォンで見るテキストコンテンツを感情状態を予測する可能性については、まだ解明されていない。 2023年に行われた大学生のデジタル表現型調査から得られたデータの一部について,ユーザが露出し,対話する画面テキストが,その影響にどのように影響するかを,よりよく理解するために検討した。 画面テキストと感情状態の関係を解析するために,大規模言語モデル(LLM)を用いた線形回帰,ゼロショット,マルチショットプロンプトを用いた。 その結果,マルチショットプロンプトは線形回帰とゼロショットプロンプトの両方に大きく優れており,影響予測における文脈の重要性が強調された。 本稿では、感情予測を改善するためにテキストデータと感情データを組み込むことの価値について論じ、スマートフォン利用と幸福の理解における今後の進歩の基盤を提供する。

The proliferation of mobile sensing technologies has enabled the study of various physiological and behavioural phenomena through unobtrusive data collection from smartphone sensors. This approach offers real-time insights into individuals' physical and mental states, creating opportunities for personalised treatment and interventions. However, the potential of analysing the textual content viewed on smartphones to predict affective states remains underexplored. To better understand how the screen text that users are exposed to and interact with can influence their affects, we investigated a subset of data obtained from a digital phenotyping study of Australian university students conducted in 2023. We employed linear regression, zero-shot, and multi-shot prompting using a large language model (LLM) to analyse relationships between screen text and affective states. Our findings indicate that multi-shot prompting substantially outperforms both linear regression and zero-shot prompting, highlighting the importance of context in affect prediction. We discuss the value of incorporating textual and sentiment data for improving affect prediction, providing a basis for future advancements in understanding smartphone use and wellbeing.
翻訳日:2024-08-26 15:59:33 公開日:2024-08-23
# コンテキストバンドによるオンラインフェアディビジョン

Online Fair Division with Contextual Bandits ( http://arxiv.org/abs/2408.12845v1 )

ライセンス: Link先を確認
Arun Verma, Indrajit Saha, Makoto Yokoo, Bryan Kian Hsiang Low, (参考訳) 本稿では,学習者が公平さと効率の制約を満たしつつ,エージェントの1つに不当に割り当てなければならない不特定項目を観察する,複数のエージェントを含むオンラインフェア分割問題について考察する。 既存のアルゴリズムは、十分な数のコピーを持つ少数のアイテムを仮定し、全てのアイテムとエージェントのペアに対して優れたユーティリティー推定を可能にする。 しかし、そのような仮定は多くの現実的なアプリケーションには当てはまらないかもしれない。例えば、プラットフォームのサービスプロバイダ(エージェント)を数回(アイテムのコピー)しか使用していない多数のユーザ(item)を持つオンラインプラットフォームで、すべてのアイテムとエージェントのペアのユーティリティを見積もるのは困難である。 この課題を克服するために,提案手法がアイテムエージェントの機能の未知の機能であることを前提として,文脈的帯域幅を用いたオンラインフェアディビジョン問題をモデル化する。 次に,オンラインフェアディビジョンのためのサブ線形後悔保証付きアルゴリズムを提案する。 また,提案アルゴリズムの性能特性についても検証した。

This paper considers a novel online fair division problem involving multiple agents in which a learner observes an indivisible item that has to be irrevocably allocated to one of the agents while satisfying a fairness and efficiency constraint. Existing algorithms assume a small number of items with a sufficiently large number of copies, which ensures a good utility estimation for all item-agent pairs. However, such an assumption may not hold in many real-life applications, e.g., an online platform that has a large number of users (items) who only use the platform's service providers (agents) a few times (a few copies of items), which makes it difficult to estimate the utility for all item-agent pairs. To overcome this challenge, we model the online fair division problem using contextual bandits, assuming the utility is an unknown function of the item-agent features. We then propose algorithms for online fair division with sub-linear regret guarantees. Our experimental results also verify the different performance aspects of the proposed algorithms.
翻訳日:2024-08-26 15:59:33 公開日:2024-08-23
# トピック領域を対象とする多面的質問複雑度推定

Multi-Faceted Question Complexity Estimation Targeting Topic Domain-Specificity ( http://arxiv.org/abs/2408.12850v1 )

ライセンス: Link先を確認
Sujay R, Suki Perumal, Yash Nagraj, Anushka Ghei, Srinivas K S, (参考訳) 質問の難易度の推定は、教育と評価の設定において多面的な課題である。 伝統的なアプローチは、しばしば表面レベルの言語的特徴や学習者の理解レベルに焦点を合わせ、複雑化に寄与する要因の複雑な相互作用を無視している。 本稿では,NLP手法と知識グラフ解析を併用した,ドメイン固有の質問難度推定のための新しいフレームワークを提案する。 トピック検索コスト(Topic Retrieval Cost)、トピックサリエンス(Topic Salience)、トピック・コヒーレンス(Topic Coherence)、トピック・スーパーファシリティ(Topic Superficiality)の4つの主要なパラメータを導入し、それぞれが与えられた主題領域内での質問の複雑さの相違を捉えている。 これらのパラメータは、トピックモデリング、知識グラフ分析、情報検索技術を通じて操作される。 これらの特徴を訓練したモデルにより,質問の難易度を予測する手法の有効性が示された。 これらのパラメータを運用することにより、我々のフレームワークは複雑さを推定し、より効果的な質問生成、評価設計、様々な学術分野にわたる適応学習システムを実現するための新しいアプローチを提供する。

Question difficulty estimation remains a multifaceted challenge in educational and assessment settings. Traditional approaches often focus on surface-level linguistic features or learner comprehension levels, neglecting the intricate interplay of factors contributing to question complexity. This paper presents a novel framework for domain-specific question difficulty estimation, leveraging a suite of NLP techniques and knowledge graph analysis. We introduce four key parameters: Topic Retrieval Cost, Topic Salience, Topic Coherence, and Topic Superficiality, each capturing a distinct facet of question complexity within a given subject domain. These parameters are operationalized through topic modelling, knowledge graph analysis, and information retrieval techniques. A model trained on these features demonstrates the efficacy of our approach in predicting question difficulty. By operationalizing these parameters, our framework offers a novel approach to question complexity estimation, paving the way for more effective question generation, assessment design, and adaptive learning systems across diverse academic disciplines.
翻訳日:2024-08-26 15:59:33 公開日:2024-08-23
# オンラインサブスペース Descent を用いたメモリ効率の良い LLM トレーニング

Memory-Efficient LLM Training with Online Subspace Descent ( http://arxiv.org/abs/2408.12857v1 )

ライセンス: Link先を確認
Kaizhao Liang, Bo Liu, Lizhang Chen, Qiang Liu, (参考訳) 近年,メモリ効率のよいLLMトレーニングアルゴリズムが広く普及している。 これらの手法は勾配の低ランク構造を利用して、特異値分解(SVD)によって発見された射影行列を用いて、最適化状態が部分空間に射影される。 しかし、これらのアルゴリズムの収束はプロジェクション行列の更新規則に大きく依存している。 本研究では、射影行列の任意の更新規則に対して \emph{first} 収束保証を与える。 この保証は一般的に、LIONやAdamといった一般的なものを含むハミルトンのDescentで分析できる最適化器に適用できる。 理論的な理解から着想を得て,SVDのない新しいサブスペース降下オプティマイザである Online Subspace Descent を提案する。 プロジェクションマトリックスを固有ベクトルで更新する代わりに、Online Subspace DescentはプロジェクションマトリックスをオンラインPCAで更新する。 Online Subspace Descentは柔軟性があり、トレーニングに最小限のオーバーヘッドしか導入しない。 C4 データセット上で 60M から 7B までの LLaMA モデルを事前訓練するタスクにおいて,オンラインサブスペース Descent は様々な設定で最先端の低ランクトレーニング手法よりも低いパープレキシティとダウンストリームタスク性能を実現し,そのギャップをフルランクベースラインで狭めることを示す。

Recently, a wide range of memory-efficient LLM training algorithms have gained substantial popularity. These methods leverage the low-rank structure of gradients to project optimizer states into a subspace using projection matrix found by singular value decomposition (SVD). However, convergence of these algorithms is highly dependent on the update rules of their projection matrix. In this work, we provide the \emph{first} convergence guarantee for arbitrary update rules of projection matrix. This guarantee is generally applicable to optimizers that can be analyzed with Hamiltonian Descent, including most common ones, such as LION, Adam. Inspired by our theoretical understanding, we propose Online Subspace Descent, a new family of subspace descent optimizer without SVD. Instead of updating the projection matrix with eigenvectors, Online Subspace Descent updates the projection matrix with online PCA. Online Subspace Descent is flexible and introduces only minimum overhead to training. We show that for the task of pretraining LLaMA models ranging from 60M to 7B parameters on the C4 dataset, Online Subspace Descent achieves lower perplexity and better downstream tasks performance than state-of-the-art low-rank training methods across different settings and narrows the gap with full-rank baselines.
翻訳日:2024-08-26 15:59:33 公開日:2024-08-23
# 難読メモリマルウェア検出

Obfuscated Memory Malware Detection ( http://arxiv.org/abs/2408.12866v1 )

ライセンス: Link先を確認
Sharmila S P, Aruna Tiwari, Narendra S Chaudhari, (参考訳) 情報に対するセキュリティの提供は,インターネットのない日は極めて不可能であるとして,スマートテクノロジによって実現されたデバイスにおいて,現代において非常に重要なものだ。 高速インターネットは安価で、合法的なユーザーだけでなく、サイバー犯罪者がプライバシーやセキュリティを侵害するために様々な次元の攻撃を誘発するのも容易だった。 サイバー犯罪者は違法アクセスを取得し、ユーザーのプライバシーを侵害し、複数の方法でそれらを傷つける。 Malwareはハッカーが悪質な意図を実行するために使うツールだ。 AI技術の開発は、マルウェア開発者によって社会に害を与えるために利用される。 本研究では、人工知能と機械学習を用いて、特定の難読マルウェアのマルウェアによって引き起こされるサイバー攻撃を検知し、軽減する方法を示す。 マルウェアサンプルのメモリ分析において,メモリ機能工学を用いて実験を行った。 バイナリ分類は、与えられたサンプルがマルウェアかどうかを識別するが、マルウェアの種類を特定することは、そのマルウェアが次にどのようなステップを取るかを導くだけで、さらなるアクションでそれを止めることができる。 そこで我々は,従来のランダムフォレストアルゴリズムを用いて,89.07%の精度で3種類の難読化マルウェアを検出するマルチクラス分類モデルを提案する。 我々の知る限りでは、複数の難読化マルウェアを1つのモデルで分類する作業はほとんどない。 また、我々のモデルをいくつかの最先端モデルと比較したところ、比較的良い結果が得られた。

Providing security for information is highly critical in the current era with devices enabled with smart technology, where assuming a day without the internet is highly impossible. Fast internet at a cheaper price, not only made communication easy for legitimate users but also for cybercriminals to induce attacks in various dimensions to breach privacy and security. Cybercriminals gain illegal access and breach the privacy of users to harm them in multiple ways. Malware is one such tool used by hackers to execute their malicious intent. Development in AI technology is utilized by malware developers to cause social harm. In this work, we intend to show how Artificial Intelligence and Machine learning can be used to detect and mitigate these cyber-attacks induced by malware in specific obfuscated malware. We conducted experiments with memory feature engineering on memory analysis of malware samples. Binary classification can identify whether a given sample is malware or not, but identifying the type of malware will only guide what next step to be taken for that malware, to stop it from proceeding with its further action. Hence, we propose a multi-class classification model to detect the three types of obfuscated malware with an accuracy of 89.07% using the Classic Random Forest algorithm. To the best of our knowledge, there is very little amount of work done in classifying multiple obfuscated malware by a single model. We also compared our model with a few state-of-the-art models and found it comparatively better.
翻訳日:2024-08-26 15:49:48 公開日:2024-08-23
# マルチモーダル大言語モデルのための意味的アライメント

Semantic Alignment for Multimodal Large Language Models ( http://arxiv.org/abs/2408.12867v1 )

ライセンス: Link先を確認
Tao Wu, Mengze Li, Jingyuan Chen, Wei Ji, Wang Lin, Jinyang Gao, Kun Kuang, Zhou Zhao, Fei Wu, (参考訳) マルチモーダル・大規模言語モデル(MLLM)のマルチモーダル・クロスモーダル・インストラクションに関する研究は注目され、特に画像に近づいた場合(例えば、変更キャプション)において顕著な進歩を遂げている。 既存のMLLMは、まず入力画像ごとに独立して視覚トークンを抽出し、次に異なる画像からこれらの視覚トークンをテキストの特徴空間のLarge Language Model(LLM)と整列させる。 しかし、各画像に対する視覚的トークンの独立抽出は、まず最初に異なる画像に対して異なるセマンティクスが優先される結果となり、その後のLCM分析のために画像間のリンク情報の保存が欠如する可能性がある。 この問題は、画像間で大きなバリエーションが存在する場合(例えば、ビジュアルストーリーテリング)にさらに深刻になる。 この課題に対処するために,多モーダル大言語モデル(SAM)のセマンティックアライメントを導入する。 ラーメンは、視覚的・視覚的抽出プロセスにおいて、異なる画像間の双方向意味指導を組み込むことにより、コヒーレントな解析のためのリンク情報の保存を強化し、異なる画像のセマンティクスをLCMに入力する前に整列させることを目的としている。 実験ベッドとして,69Kサンプルからなる大規模データセットMmLINKを提案する。 MmLINKデータセットは、MLLMの微調整のための既存のデータセットとは異なり、非常に多様な画像を持つマルチモーダル命令から構成される。 グループキャプションタスクとストーリーテリングタスクの広範囲な実験により、SAMモデルの有効性が証明され、最先端の手法を大きなマージン(グループキャプティングでは+37%、CIDErスコアでは+22%)で上回った。 プロジェクトページ: https://mccartney01.github.io/SAM

Research on Multi-modal Large Language Models (MLLMs) towards the multi-image cross-modal instruction has received increasing attention and made significant progress, particularly in scenarios involving closely resembling images (e.g., change captioning). Existing MLLMs typically follow a two-step process in their pipelines: first, extracting visual tokens independently for each input image, and then aligning these visual tokens from different images with the Large Language Model (LLM) in its textual feature space. However, the independent extraction of visual tokens for each image may result in different semantics being prioritized for different images in the first step, leading to a lack of preservation of linking information among images for subsequent LLM analysis. This issue becomes more serious in scenarios where significant variations exist among the images (e.g., visual storytelling). To address this challenge, we introduce Semantic Alignment for Multi-modal large language models (SAM). By involving the bidirectional semantic guidance between different images in the visual-token extraction process, SAM aims to enhance the preservation of linking information for coherent analysis and align the semantics of different images before feeding them into LLM. As the test bed, we propose a large-scale dataset named MmLINK consisting of 69K samples. Different from most existing datasets for MLLMs fine-tuning, our MmLINK dataset comprises multi-modal instructions with significantly diverse images. Extensive experiments on the group captioning task and the storytelling task prove the effectiveness of our SAM model, surpassing the state-of-the-art methods by a large margin (+37% for group captioning and +22% for storytelling on CIDEr score). Project page: https://mccartney01.github.io/SAM.
翻訳日:2024-08-26 15:49:48 公開日:2024-08-23
# 手書きアンサーシートのグラフ化にAIアシストは有効か?

Can AI Assistance Aid in the Grading of Handwritten Answer Sheets? ( http://arxiv.org/abs/2408.12870v1 )

ライセンス: Link先を確認
Pritam Sil, Parag Chaudhuri, Bhaskaran Raman, (参考訳) 人工知能(AI)の最近の進歩により、手書きの回答シートのグレーディングを支援するため、最先端(SOTA)AIソリューションの使用への関心が高まっている。 いくつかの商用製品が存在するが、AIアシスタントが実際にグレーティングの労力と時間を削減できるかどうかという問題は、まだ公表された文献で慎重に検討されていない。 この作業では、AI支援のグレーティングパイプラインが導入されている。 パイプラインはまずテキスト検出を使用して、質問紙PDFに存在する質問領域を自動的に検出する。 次に、SOTAテキスト検出法を用いて、スキャンされた回答シートの手書き回答領域に存在する重要なキーワードをハイライトし、評価プロセスを支援する。 そして、既存のeラーニング管理プラットフォーム上にデプロイされたAI支援のグレーティングパイプラインのプロトタイプ実装を評価する。 評価には、評価機関の4つの異なるコースにまたがる5つの異なる実生活試験が含まれており、合計42の質問、17の学年、468の応募がある。 私たちは、AIアシストを使用しながら、それなしで、手書きの回答の採点時間をログし分析します。 評価の結果,1回の回答は平均31%,1回の回答は33%,1回の回答シートはAIアシストで評価した。

With recent advancements in artificial intelligence (AI), there has been growing interest in using state of the art (SOTA) AI solutions to provide assistance in grading handwritten answer sheets. While a few commercial products exist, the question of whether AI-assistance can actually reduce grading effort and time has not yet been carefully considered in published literature. This work introduces an AI-assisted grading pipeline. The pipeline first uses text detection to automatically detect question regions present in a question paper PDF. Next, it uses SOTA text detection methods to highlight important keywords present in the handwritten answer regions of scanned answer sheets to assist in the grading process. We then evaluate a prototype implementation of the AI-assisted grading pipeline deployed on an existing e-learning management platform. The evaluation involves a total of 5 different real-life examinations across 4 different courses at a reputed institute; it consists of a total of 42 questions, 17 graders, and 468 submissions. We log and analyze the grading time for each handwritten answer while using AI assistance and without it. Our evaluations have shown that, on average, the graders take 31% less time while grading a single response and 33% less grading time while grading a single answer sheet using AI assistance.
翻訳日:2024-08-26 15:49:48 公開日:2024-08-23
# DeepDelveAI: 大規模文献データにおけるAI関連ドキュメントの識別

DeepDelveAI: Identifying AI Related Documents in Large Scale Literature Data ( http://arxiv.org/abs/2408.12871v1 )

ライセンス: Link先を確認
Zhou Xiaochen, Liang Xingzhou, Zou Hui, Lu Yi, Qu Jingjing, (参考訳) 本稿では,大規模学術文献データベースからAI関連の研究論文を特定するための包括的データセットであるDeepDelveAIを提案する。 データセットは、AI関連の論文と非AI関連の論文を区別するために、バイナリ分類タスクに基づいてトレーニングされた高度なLong Short-Term Memory(LSTM)モデルを使用して作成された。 モデルはトレーニングされ、膨大なデータセットで検証され、高精度、精度、リコール、F1スコアが達成された。 結果として得られたDeepDelveAIデータセットは、1956年から2024年にかけてのDartmouth Conference以来、940万以上のAI関連論文で構成され、トレンド、テーマ開発、さまざまな分野にわたるAI研究の進化を分析する上で重要なリソースを提供する。

This paper presents DeepDelveAI, a comprehensive dataset specifically curated to identify AI-related research papers from a large-scale academic literature database. The dataset was created using an advanced Long Short-Term Memory (LSTM) model trained on a binary classification task to distinguish between AI-related and non-AI-related papers. The model was trained and validated on a vast dataset, achieving high accuracy, precision, recall, and F1-score. The resulting DeepDelveAI dataset comprises over 9.4 million AI-related papers published since Dartmouth Conference, from 1956 to 2024, providing a crucial resource for analyzing trends, thematic developments, and the evolution of AI research across various disciplines.
翻訳日:2024-08-26 15:49:48 公開日:2024-08-23
# オンライン談話における道徳的判断はジェンダーによるバイアスを受けない

Moral Judgments in Online Discourse are not Biased by Gender ( http://arxiv.org/abs/2408.12872v1 )

ライセンス: Link先を確認
Lorenzo Betti, Paolo Bajardi, Gianmarco De Francisci Morales, (参考訳) 社会的規範とジェンダーの役割の相互作用は、道徳的判断に影響を与えるジェンダー固有の振る舞いを規定する。 本稿では,物語の主人公のジェンダーに道徳的判断が偏っているかを検討する。 r/AITAというRedditコミュニティの1700万人のメンバが、コミュニティの行動に関する判断を求める経験を共有できるデータを用いて、私たちは、主人公の性別によってのみ異なる同様の状況を説明するストーリーをマッチングするために、機械学習技術を使用します。 男性主人公がより否定的な判断を受ける「友情と関係」の物語を除いて、主人公の性別が受けられる道徳的判断に直接的な因果関係は見つからない。 本研究は、既存の相関研究を補完し、ジェンダーの役割が特定の社会的文脈により大きな影響を及ぼす可能性を示唆している。 これらの結果は、社会学的構造を理解し、大きな言語モデルの学習に使用されるデータの潜在的なバイアスを明らかにすることにつながる。

The interaction between social norms and gender roles prescribes gender-specific behaviors that influence moral judgments. Here, we study how moral judgments are biased by the gender of the protagonist of a story. Using data from r/AITA, a Reddit community with 17 million members who share first-hand experiences seeking community judgment on their behavior, we employ machine learning techniques to match stories describing similar situations that differ only by the protagonist's gender. We find no direct causal effect of the protagonist's gender on the received moral judgments, except for stories about ``friendship and relationships'', where male protagonists receive more negative judgments. Our findings complement existing correlational studies and suggest that gender roles may exert greater influence in specific social contexts. These results have implications for understanding sociological constructs and highlight potential biases in data used to train large language models.
翻訳日:2024-08-26 15:49:48 公開日:2024-08-23
# アンタングル、アンプ、デバイアス:公正なグラフニューラルネットワークのためのアンタングル表現の学習

Disentangling, Amplifying, and Debiasing: Learning Disentangled Representations for Fair Graph Neural Networks ( http://arxiv.org/abs/2408.12875v1 )

ライセンス: Link先を確認
Yeon-Chang Lee, Hojung Shin, Sang-Wook Kim, (参考訳) グラフニューラルネットワーク(GNN)は、ソーシャルメディアやヘルスケアなど、さまざまな領域におけるグラフ表現学習に不可欠なツールとなっている。 しかし、ノード属性やグラフ構造に固有のバイアスがあるため、フェアネスの問題に悩まされることがしばしばあり、不公平な予測につながる。 これらの課題に対処するために,新しいGNNフレームワークであるDAB-GNNを提案する。 DAB-GNNは、各種類のバイアスを特別なアンタングルを通じて分離し増幅するアンタングルとアンパンフィケーションモジュールを使用し、続いて、サブグループ分布間の距離を最小化して公平性を確保するデバイアスモジュールを使用する。 5つのデータセットに対する大規模な実験により、DAB-GNNは精度と公正性の最適なバランスを達成するという点で、最先端の10の競合より大幅に優れていることが示されている。

Graph Neural Networks (GNNs) have become essential tools for graph representation learning in various domains, such as social media and healthcare. However, they often suffer from fairness issues due to inherent biases in node attributes and graph structure, leading to unfair predictions. To address these challenges, we propose a novel GNN framework, DAB-GNN, that Disentangles, Amplifies, and deBiases attribute, structure, and potential biases in the GNN mechanism. DAB-GNN employs a disentanglement and amplification module that isolates and amplifies each type of bias through specialized disentanglers, followed by a debiasing module that minimizes the distance between subgroup distributions to ensure fairness. Extensive experiments on five datasets demonstrate that DAB-GNN significantly outperforms ten state-of-the-art competitors in terms of achieving an optimal balance between accuracy and fairness.
翻訳日:2024-08-26 15:49:48 公開日:2024-08-23
# 密度画像予測のための周波数認識機能融合

Frequency-aware Feature Fusion for Dense Image Prediction ( http://arxiv.org/abs/2408.12879v1 )

ライセンス: Link先を確認
Linwei Chen, Ying Fu, Lin Gu, Chenggang Yan, Tatsuya Harada, Gao Huang, (参考訳) 複雑な画像予測タスクは、強いカテゴリ情報と高精度な空間境界の詳細を高解像度で要求する。 これを実現するために、現代の階層モデルは、しばしば機能融合を利用し、深い層からのアップサンプリングされた粗い特徴と低い層からの高解像度特徴を直接追加する。 本稿では,物体内の融合特徴値の急激な変動を観察し,高周波特性の乱れによるカテゴリー内不整合を生じさせる。 さらに、溶解した特徴のぼやけた境界は正確な高周波を欠き、境界のずれにつながる。 これらの観測に基づいて、適応低パスフィルタ(ALPF)ジェネレータ、オフセットジェネレータ、適応高パスフィルタ(AHPF)ジェネレータを統合する周波数認識機能融合(FreqFusion)を提案する。 ALPFジェネレータは、空間的に変化する低域通過フィルタを予測し、オブジェクト内の高周波成分を減衰させ、アップサンプリング時のクラス内不整合を低減する。 オフセットジェネレータは、整合性のない特徴を再サンプリングによりより整合性のあるものに置き換えることで、大きな不整合性と細い境界を洗練し、一方AHPFジェネレータは、ダウンサンプリング中に失われた高周波の詳細境界情報を強化する。 包括的可視化と定量的解析は、FreqFusionが機能一貫性を効果的に改善し、オブジェクト境界を鋭くすることを示している。 様々な密集予測タスクにわたる広範囲な実験により、その有効性が確認された。 コードはhttps://github.com/Linwei-Chen/FreqFusion.comで公開されている。

Dense image prediction tasks demand features with strong category information and precise spatial boundary details at high resolution. To achieve this, modern hierarchical models often utilize feature fusion, directly adding upsampled coarse features from deep layers and high-resolution features from lower levels. In this paper, we observe rapid variations in fused feature values within objects, resulting in intra-category inconsistency due to disturbed high-frequency features. Additionally, blurred boundaries in fused features lack accurate high frequency, leading to boundary displacement. Building upon these observations, we propose Frequency-Aware Feature Fusion (FreqFusion), integrating an Adaptive Low-Pass Filter (ALPF) generator, an offset generator, and an Adaptive High-Pass Filter (AHPF) generator. The ALPF generator predicts spatially-variant low-pass filters to attenuate high-frequency components within objects, reducing intra-class inconsistency during upsampling. The offset generator refines large inconsistent features and thin boundaries by replacing inconsistent features with more consistent ones through resampling, while the AHPF generator enhances high-frequency detailed boundary information lost during downsampling. Comprehensive visualization and quantitative analysis demonstrate that FreqFusion effectively improves feature consistency and sharpens object boundaries. Extensive experiments across various dense prediction tasks confirm its effectiveness. The code is made publicly available at https://github.com/Linwei-Chen/FreqFusion.
翻訳日:2024-08-26 15:49:48 公開日:2024-08-23
# 医療におけるユニバーサルインテリジェンスを実現するマルチモーダルラーニング : 包括的調査

Has Multimodal Learning Delivered Universal Intelligence in Healthcare? A Comprehensive Survey ( http://arxiv.org/abs/2408.12880v1 )

ライセンス: Link先を確認
Qika Lin, Yifan Zhu, Xin Mei, Ling Huang, Jingying Ma, Kai He, Zhen Peng, Erik Cambria, Mengling Feng, (参考訳) 人工知能の急速な発展は、インテリジェントヘルスケアと医療の分野を常に変えてきた。 重要な技術であるマルチモーダル学習は、データの相補性、包括的なモデリング形式、そして優れたアプリケーションの可能性によって、ますます関心を集めている。 現在、多くの研究者がこの分野に注力し、広範な研究を行い、豊富な知的なシステムを構築している。 当然、マルチモーダル学習が医療に普遍的なインテリジェンスをもたらすというオープンな疑問が生まれている。 そこで本研究では,3つの視点を総合分析に適用する。 まず、データセット、タスク指向手法、普遍的基礎モデルの観点から、医療マルチモーダル学習の現状を包括的に調査する。 そこで本研究では,データや技術からパフォーマンス,倫理に至るまで,医療における先進的技術の本当の影響を探るため,5つの課題から提案された疑問をさらに議論する。 答えは、現在の技術は普遍的な知性を達成しておらず、実行すべき重要な道程がまだ残っているということだ。 最後に、上記のレビューや議論を踏まえて、医療におけるユニバーサルインテリジェンスの目標に向けた10の潜在的方向を指摘する。

The rapid development of artificial intelligence has constantly reshaped the field of intelligent healthcare and medicine. As a vital technology, multimodal learning has increasingly garnered interest due to data complementarity, comprehensive modeling form, and great application potential. Currently, numerous researchers are dedicating their attention to this field, conducting extensive studies and constructing abundant intelligent systems. Naturally, an open question arises that has multimodal learning delivered universal intelligence in healthcare? To answer the question, we adopt three unique viewpoints for a holistic analysis. Firstly, we conduct a comprehensive survey of the current progress of medical multimodal learning from the perspectives of datasets, task-oriented methods, and universal foundation models. Based on them, we further discuss the proposed question from five issues to explore the real impacts of advanced techniques in healthcare, from data and technologies to performance and ethics. The answer is that current technologies have NOT achieved universal intelligence and there remains a significant journey to undertake. Finally, in light of the above reviews and discussions, we point out ten potential directions for exploration towards the goal of universal intelligence in healthcare.
翻訳日:2024-08-26 15:49:48 公開日:2024-08-23
# リアルタイム地域知識を用いた時空間道路交通予測

Spatio-Temporal Road Traffic Prediction using Real-time Regional Knowledge ( http://arxiv.org/abs/2408.12882v1 )

ライセンス: Link先を確認
Sumin Han, Jisun An, Dongman Lee, (参考訳) カーシェアリングやライドシェアリングなどの交通サービスにおける交通予測には、中期道路交通予測(数時間以内)が不可欠である。 しかし,既存の道路レベルの交通予測は,短期的な予測の観点から,マイクロ交通事象が隣接する道路にどのように伝播するかを主に研究している。 一方, 交通予測を支援するため, 道路特性, リアルタイムソーシャルイベントなどの地域知識を組み込むことが近年試みられている。 しかしながら、これらの研究は、道路レベルと地域レベルの時空間的相関の異なる様相の理解と、そのような知識をどのように組み合わせるかを欠いている。 本稿では、動的畳み込みと時間的注意からなる地域時空間モジュールを用いて、POI、衛星画像、およびリアルタイムLTEアクセストレースを用いて、リアルタイムな地域レベルの知識を埋め込んで、道路レベルの知識に変換する新しい手法を提案する。 そして、このモデルがこの組込み知識を道路レベルの注意に基づく予測モデルに取り込みます。 実世界の道路交通予測実験の結果,我々のモデルはベースラインよりも優れていた。

For traffic prediction in transportation services such as car-sharing and ride-hailing, mid-term road traffic prediction (within a few hours) is considered essential. However, the existing road-level traffic prediction has mainly studied how significantly micro traffic events propagate to the adjacent roads in terms of short-term prediction. On the other hand, recent attempts have been made to incorporate regional knowledge such as POIs, road characteristics, and real-time social events to help traffic prediction. However, these studies lack in understandings of different modalities of road-level and region-level spatio-temporal correlations and how to combine such knowledge. This paper proposes a novel method that embeds real-time region-level knowledge using POIs, satellite images, and real-time LTE access traces via a regional spatio-temporal module that consists of dynamic convolution and temporal attention, and conducts bipartite spatial transform attention to convert into road-level knowledge. Then the model ingests this embedded knowledge into a road-level attention-based prediction model. Experimental results on real-world road traffic prediction show that our model outperforms the baselines.
翻訳日:2024-08-26 15:49:48 公開日:2024-08-23
# T3M:テキストガイドによる音声からの人体動作合成

T3M: Text Guided 3D Human Motion Synthesis from Speech ( http://arxiv.org/abs/2408.12885v1 )

ライセンス: Link先を確認
Wenshuo Peng, Kaipeng Zhang, Sai Qian Zhang, (参考訳) 音声駆動の3Dモーション合成は、バーチャルリアリティー、ゲーム、映画製作において潜在的に有用な、人間のスピーチに基づくライフスタイルのアニメーションを作成することを目指している。 既存のアプローチは音声のみに応答して動作生成を行い、不正確で非フレキシブルな合成結果をもたらす。 この問題を軽減するために,新しいテキスト誘導型3次元人体動作合成法である「textit{T3M}」を導入する。 従来のアプローチとは異なり、T3Mはテキスト入力による動作合成を正確に制御し、多様性とユーザのカスタマイズの度合いを高める。 実験の結果、T3Mは定量測定と定性評価の両方において最先端の手法を大幅に上回ることを示した。 原文(投稿日:2010/01/28)へのリンク 私たちは、コードを公開した。

Speech-driven 3D motion synthesis seeks to create lifelike animations based on human speech, with potential uses in virtual reality, gaming, and the film production. Existing approaches reply solely on speech audio for motion generation, leading to inaccurate and inflexible synthesis results. To mitigate this problem, we introduce a novel text-guided 3D human motion synthesis method, termed \textit{T3M}. Unlike traditional approaches, T3M allows precise control over motion synthesis via textual input, enhancing the degree of diversity and user customization. The experiment results demonstrate that T3M can greatly outperform the state-of-the-art methods in both quantitative metrics and qualitative evaluations. We have publicly released our code at \href{https://github.com/Gloria2tt/T3M.git}{https://github.com/Gloria2tt/T3M.git}
翻訳日:2024-08-26 15:49:48 公開日:2024-08-23
# Adaptive Weighting Schemeを用いたMarkov Chain Monte Carloの高速化

Accelerated Markov Chain Monte Carlo Using Adaptive Weighting Scheme ( http://arxiv.org/abs/2408.12888v1 )

ライセンス: Link先を確認
Yanbo Wang, Wenyu Chen, Shimin Shan, (参考訳) ギブスサンプリングはマルコフ・チェイン・モンテカルロ (MCMC) アルゴリズムの単純さと効率性から最もよく使われるアルゴリズムの1つである。 潜伏変数を循環し、他の変数の現在の値に基づいて分布条件から各変数をサンプリングする。 従来のギブスサンプリングは(変数の決定論的順序で)系統的なスキャンに基づいている。 対照的に、近年では、ランダムスキャンによるギブズサンプリングがいくつかのシナリオでその優位性を示している。 しかし、ランダムスキャンによるギブズサンプリングのほとんどすべての分析は、変数の均一な選択に基づいている。 本稿では,各潜伏変数を不均一に選択するランダムスキャンギブスサンプリング手法に着目する。 まず、この一様でないスキャンギブスサンプリングが対象の後方分布を不変にしていることを示す。 次に、潜伏変数の選択確率を決定する方法について検討する。 特に、選択確率の関数として目的を構築し、制約付き最適化問題を解く。 さらに、容易に推定できる選択確率の分析解を導出する。 アルゴリズムは,その限界確率に応じて変数更新を選択することでマルコフ連鎖の混合時間を高めるという単純な直観に依存している。 最後に,提案したGibbsサンプル装置の有効性を実世界の応用実験により検証した。

Gibbs sampling is one of the most commonly used Markov Chain Monte Carlo (MCMC) algorithms due to its simplicity and efficiency. It cycles through the latent variables, sampling each one from its distribution conditional on the current values of all the other variables. Conventional Gibbs sampling is based on the systematic scan (with a deterministic order of variables). In contrast, in recent years, Gibbs sampling with random scan has shown its advantage in some scenarios. However, almost all the analyses of Gibbs sampling with the random scan are based on uniform selection of variables. In this paper, we focus on a random scan Gibbs sampling method that selects each latent variable non-uniformly. Firstly, we show that this non-uniform scan Gibbs sampling leaves the target posterior distribution invariant. Then we explore how to determine the selection probability for latent variables. In particular, we construct an objective as a function of the selection probability and solve the constrained optimization problem. We further derive an analytic solution of the selection probability, which can be estimated easily. Our algorithm relies on the simple intuition that choosing the variable updates according to their marginal probabilities enhances the mixing time of the Markov chain. Finally, we validate the effectiveness of the proposed Gibbs sampler by conducting a set of experiments on real-world applications.
翻訳日:2024-08-26 15:49:48 公開日:2024-08-23
# バイオメディカル画像とビデオにおけるSAM2の可能性:サーベイ

Unleashing the Potential of SAM2 for Biomedical Images and Videos: A Survey ( http://arxiv.org/abs/2408.12889v1 )

ライセンス: Link先を確認
Yichi Zhang, Zhenrong Shen, (参考訳) セグメンテーションの基礎モデルにおける前例のない発展は、コンピュータビジョンの分野で支配的な力となり、様々な自然画像やビデオに、これまで探索されていなかった多くの機能を導入している。 具体的には、Segment Anything Model (SAM) は、画像セグメンテーションの領域へのプロンプト駆動パラダイムの注目すべき拡張を意味する。 最近のSAM2の導入は、オリジナルのSAMをストリーミング方式に効果的に拡張し、ビデオセグメンテーションにおける強力なパフォーマンスを示している。 しかし, 自然画像と医用画像の相違により, バイオメディカル画像やビデオに対するこれらのモデルの有効性はいまだ検討中である。 本稿では,SAM2をバイオメディカル画像やビデオに適用するための最近の取り組みの概要について述べる。 SAM2はアノテーションの負担を軽減し、ゼロショットのセグメンテーションを可能にすることを約束しているが、そのパフォーマンスはデータセットやタスクによって異なる。 自然画像と医用画像の領域ギャップを適応と微調整で解決することは、臨床応用におけるSAM2の可能性を完全に解き放つのに不可欠である。 進行中の研究活動をサポートするため、私たちは SAM & SAM2関連の最新の論文とプロジェクトを含むアクティブリポジトリをhttps://github.com/YichiZhang98/SAM4MISで維持しています。

The unprecedented developments in segmentation foundational models have become a dominant force in the field of computer vision, introducing a multitude of previously unexplored capabilities in a wide range of natural images and videos. Specifically, the Segment Anything Model (SAM) signifies a noteworthy expansion of the prompt-driven paradigm into the domain of image segmentation. The recent introduction of SAM2 effectively extends the original SAM to a streaming fashion and demonstrates strong performance in video segmentation. However, due to the substantial distinctions between natural and medical images, the effectiveness of these models on biomedical images and videos is still under exploration. This paper presents an overview of recent efforts in applying and adapting SAM2 to biomedical images and videos. The findings indicate that while SAM2 shows promise in reducing annotation burdens and enabling zero-shot segmentation, its performance varies across different datasets and tasks. Addressing the domain gap between natural and medical images through adaptation and fine-tuning is essential to fully unleash SAM2's potential in clinical applications. To support ongoing research endeavors, we maintain an active repository that contains up-to-date SAM & SAM2-related papers and projects at https://github.com/YichiZhang98/SAM4MIS.
翻訳日:2024-08-26 15:49:48 公開日:2024-08-23
# 交通需要予測の多面的特徴

Multiple Areal Feature Aware Transportation Demand Prediction ( http://arxiv.org/abs/2408.12890v1 )

ライセンス: Link先を確認
Sumin Han, Jisun An, Youngjun Park, Suji Kim, Kitae Jang, Dongman Lee, (参考訳) 信頼性の高い短期輸送需要予測は、スケジュールを最適化し、艦隊規模を調整し、新たな交通網を創出することにより、システムの能力向上を支援する。 いくつかの研究は、類似の領域間の同様の需要パターンを捉えるために、時空間相関を学習しながら、1つまたはいくつかのアラルの特徴を取り入れている。 しかし, 都市の特徴は多型的であり, 土地利用, 社会デマトグラフィー, 興味の場所(POI)分布など, 複数の地域の特徴によって理解する必要がある。 本稿では,時空間理解において複数のアレー特徴を融合させる新しい時空間多機能グラフ畳み込み回路(ST-MFGCRN)を提案する。 ST-MFGCRNでは,特徴が有用でない場合,各領域に部分的注意を払わせることで,アダル類似度行列を計算するためにセンチネル注意を考案した。 構築したBusDJデータセットとベンチマークによるTaxiBJの2つの実世界交通データセットについて,提案モデルの評価を行った。 その結果,このモデルでは,BusDJでは7倍,TaxiBJデータセットでは8倍,最先端のベースラインでは最大7倍であることがわかった。

A reliable short-term transportation demand prediction supports the authorities in improving the capability of systems by optimizing schedules, adjusting fleet sizes, and generating new transit networks. A handful of research efforts incorporate one or a few areal features while learning spatio-temporal correlation, to capture similar demand patterns between similar areas. However, urban characteristics are polymorphic, and they need to be understood by multiple areal features such as land use, sociodemographics, and place-of-interest (POI) distribution. In this paper, we propose a novel spatio-temporal multi-feature-aware graph convolutional recurrent network (ST-MFGCRN) that fuses multiple areal features during spatio-temproal understanding. Inside ST-MFGCRN, we devise sentinel attention to calculate the areal similarity matrix by allowing each area to take partial attention if the feature is not useful. We evaluate the proposed model on two real-world transportation datasets, one with our constructed BusDJ dataset and one with benchmark TaxiBJ. Results show that our model outperforms the state-of-the-art baselines up to 7\% on BusDJ and 8\% on TaxiBJ dataset.
翻訳日:2024-08-26 15:49:48 公開日:2024-08-23
# FLoD: カスタマイズ可能なレンダリングのためのフレキシブルな詳細レベルを3Dガウススプレイティングに統合する

FLoD: Integrating Flexible Level of Detail into 3D Gaussian Splatting for Customizable Rendering ( http://arxiv.org/abs/2408.12894v1 )

ライセンス: Link先を確認
Yunji Seo, Young Sun Choi, Hyun Seung Son, Youngjung Uh, (参考訳) 3D Gaussian Splatting (3DGS)は、多数の小さなガウスを用いて高速かつ高品質なレンダリングを実現し、メモリ消費を著しく高める。 この多数のガウスモデルへの依存は、メモリ制限のため、低コストデバイスへの3DGSベースのモデルの適用を制限する。 しかし、メモリ容量の少ないデバイスに対応するためのガウスの数を単純に減らせば、ハイエンドのハードウェアで達成できる品質よりも品質が劣る。 このスケーラビリティの欠如に対処するため、ハードウェア機能に応じてシーンを様々なレベルでレンダリングできるように、フレキシブル・レベル・オブ・ディテール(FLoD)を3DGSに統合することを提案する。 LoD を用いた既存の 3DGS では,メモリ要求の低減のために少数のガウスアンを,さらに詳細のためにガウスアンを多数使用して再構築を行う。 実験では、レンダリング品質とメモリ使用量のトレードオフによって、さまざまなレンダリングオプションを実証しています。 さらに,本手法は様々な3DGSフレームワークに一般化され,今後の最先端開発への統合の可能性を示す。 プロジェクトページ:https://3dgs-flod.github.io/flod.github.io/

3D Gaussian Splatting (3DGS) achieves fast and high-quality renderings by using numerous small Gaussians, which leads to significant memory consumption. This reliance on a large number of Gaussians restricts the application of 3DGS-based models on low-cost devices due to memory limitations. However, simply reducing the number of Gaussians to accommodate devices with less memory capacity leads to inferior quality compared to the quality that can be achieved on high-end hardware. To address this lack of scalability, we propose integrating a Flexible Level of Detail (FLoD) to 3DGS, to allow a scene to be rendered at varying levels of detail according to hardware capabilities. While existing 3DGSs with LoD focus on detailed reconstruction, our method provides reconstructions using a small number of Gaussians for reduced memory requirements, and a larger number of Gaussians for greater detail. Experiments demonstrate our various rendering options with tradeoffs between rendering quality and memory usage, thereby allowing real-time rendering across different memory constraints. Furthermore, we show that our method generalizes to different 3DGS frameworks, indicating its potential for integration into future state-of-the-art developments. Project page: https://3dgs-flod.github.io/flod.github.io/
翻訳日:2024-08-26 15:49:48 公開日:2024-08-23
# 拡散MRIと拡散モデル:拡散MRI生成のための新しい深部生成モデル

When Diffusion MRI Meets Diffusion Model: A Novel Deep Generative Model for Diffusion MRI Generation ( http://arxiv.org/abs/2408.12897v1 )

ライセンス: Link先を確認
Xi Zhu, Wei Zhang, Yijie Li, Lauren J. O'Donnell, Fan Zhang, (参考訳) 拡散MRI(Diffusion MRI)は、ヒト脳の組織微細構造と白色物質構造接続を特徴付ける高度なイメージング技術である。 高品質なdMRIデータの需要は、より良い解像度と組織のコントラストの改善の必要性によって増大している。 しかし、高品質なdMRIデータを取得するのは高価で時間がかかる。 この文脈において、深層生成モデリングは、取得コストと走査時間を最小限に抑えつつ、画質を向上させるための有望なソリューションとして現れる。 本研究では,深部拡散モデルを用いた新しいdMRI生成手法を提案する。 勾配情報と脳構造を保存する高次元(4D)と高解像度のデータを生成することができる。 3Tから7TまでのDMRI画像の品質向上を目的とした画像マッピングタスクにより,本手法の実証を行った。 提案手法は,現在最先端(SOTA)法と比較して,dMRI画像の生成性能が向上していることを示す。 この成果は、dMRIの画質向上に大きく貢献し、dMRI画像標準に革命をもたらす新しい生成手法の可能性を強調している。

Diffusion MRI (dMRI) is an advanced imaging technique characterizing tissue microstructure and white matter structural connectivity of the human brain. The demand for high-quality dMRI data is growing, driven by the need for better resolution and improved tissue contrast. However, acquiring high-quality dMRI data is expensive and time-consuming. In this context, deep generative modeling emerges as a promising solution to enhance image quality while minimizing acquisition costs and scanning time. In this study, we propose a novel generative approach to perform dMRI generation using deep diffusion models. It can generate high dimension (4D) and high resolution data preserving the gradients information and brain structure. We demonstrated our method through an image mapping task aimed at enhancing the quality of dMRI images from 3T to 7T. Our approach demonstrates highly enhanced performance in generating dMRI images when compared to the current state-of-the-art (SOTA) methods. This achievement underscores a substantial progression in enhancing dMRI quality, highlighting the potential of our novel generative approach to revolutionize dMRI imaging standards.
翻訳日:2024-08-26 15:49:48 公開日:2024-08-23
# IAA: 内部アダプタアーキテクチャは、マルチモーダル機能を備えた凍結した大規模言語モデルを実現する

IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities ( http://arxiv.org/abs/2408.12902v1 )

ライセンス: Link先を確認
Bin Wang, Chunyu Xie, Dawei Leng, Yuhui Yin, (参考訳) MLLM(Multimodal large language model)の分野では、訓練中に言語モデルを凍結させ、深い視覚的理解を促進するのが一般的である。 しかし、このようなモデルを視覚言語データで微調整することで、自然言語処理(NLP)能力の縮小につながることが多い。 この性能劣化を避けるため、言語モデルを凍結し、マルチモーダルな能力を開発するという簡単な解決策がある。 残念ながら、以前の作品では満足のいく成果が得られていない。 言語モデルを凍結する戦略に基づいて、徹底的な構造探索を行い、内適応アーキテクチャ(IAA)を導入する。 具体的には、大きな言語モデル内の様々な深さで複数のマルチモーダルアダプタを組み込んで、本質的にテキスト指向のトランスフォーマー層との直接の相互作用を容易にし、凍結した言語モデルがマルチモーダル機能を獲得できるようにする。 大規模な整列データを必要とする従来のフリーズ言語モデルとは異なり、提案アーキテクチャは小規模データセットにおいて優れた性能を実現することができる。 我々はMLLMの汎用マルチモーダル能力と視覚的接地能力を改善するために広範囲な実験を行った。 提案手法は,NLPタスクの性能を犠牲にすることなく,様々な視覚言語ベンチマークにおいて,従来の最先端手法よりも優れていた。 コードとモデルはhttps://github.com/360CVGroup/Inner-Adaptor-Architecture.comで公開されている。

In the field of multimodal large language models (MLLMs), common methods typically involve unfreezing the language model during training to foster profound visual understanding. However, the fine-tuning of such models with vision-language data often leads to a diminution of their natural language processing (NLP) capabilities. To avoid this performance degradation, a straightforward solution is to freeze the language model while developing multimodal competencies. Unfortunately, previous works have not attained satisfactory outcomes. Building on the strategy of freezing the language model, we conduct thorough structural exploration and introduce the Inner-Adaptor Architecture (IAA). Specifically, the architecture incorporates multiple multimodal adaptors at varying depths within the large language model to facilitate direct interaction with the inherently text-oriented transformer layers, thereby enabling the frozen language model to acquire multimodal capabilities. Unlike previous approaches of freezing language models that require large-scale aligned data, our proposed architecture is able to achieve superior performance on small-scale datasets. We conduct extensive experiments to improve the general multimodal capabilities and visual grounding abilities of the MLLM. Our approach remarkably outperforms previous state-of-the-art methods across various vision-language benchmarks without sacrificing performance on NLP tasks. Code and models are available at https://github.com/360CVGroup/Inner-Adaptor-Architecture.
翻訳日:2024-08-26 15:40:04 公開日:2024-08-23
# 単一電子干渉法による電磁波の時間分解センシング

Time-resolved sensing of electromagnetic fields with single-electron interferometry ( http://arxiv.org/abs/2408.12903v1 )

ライセンス: Link先を確認
Hugo Bartolomei, Elric Frigerio, Mélanie Ruelle, Giacomo Rebora, Yong Jin, Ulf Gennser, Antonella Cavanna, Emmanuel Baudin, Jean-Marc Berroir, Ines Safi, Pascal Degiovanni, Gerbold C. Ménard, Gwendal Fève, (参考訳) マイクロ波周波数での電磁場の量子状態のキャラクタリゼーションには、磁場時間依存振幅とその量子揺らぎを同時にプローブできる高速で感度の高い検出器が必要である。 本研究では,Fabry-Perot干渉計で測定された単一電子波動関数の位相を利用して古典的時間依存性の電場を検出する量子センサを実証する。 時間分解能は、電子波束の時間幅によって制限され、数十ピコ秒である。 干渉計技術は、数個のマイクロ波光子に対応する数十マイクロボルトの電圧分解能を提供する。 重要なことは、測定された干渉パターンの位相と干渉コントラストからの揺らぎから同時に磁場の振幅をプローブする。 この能力は、圧縮された状態やフォック状態のような量子放射のオンチップ検出の道を開く。

Characterizing quantum states of the electromagnetic field at microwave frequencies requires fast and sensitive detectors that can simultaneously probe the field time-dependent amplitude and its quantum fluctuations. In this work, we demonstrate a quantum sensor that exploits the phase of a single electron wavefunction, measured in an electronic Fabry-Perot interferometer, to detect a classical time-dependent electric field. The time resolution, limited by the temporal width of the electronic wavepacket, is a few tens of picoseconds. The interferometry technique provides a voltage resolution of a few tens of microvolts, corresponding to a few microwave photons. Importantly, our detector simultaneously probes the amplitude of the field from the phase of the measured interference pattern and its fluctuations from the interference contrast. This capability paves the way for on-chip detection of quantum radiation, such as squeezed or Fock states.
翻訳日:2024-08-26 15:40:04 公開日:2024-08-23
# SecDOAR: セキュリティデータオーケストレーション、分析、レポートのためのソフトウェアリファレンスアーキテクチャ

SecDOAR: A Software Reference Architecture for Security Data Orchestration, Analysis and Reporting ( http://arxiv.org/abs/2408.12904v1 )

ライセンス: Link先を確認
Muhammad Aufeef Chauhana, Muhammad Ali Babara, Fethi Rabhi, (参考訳) ソフトウェア参照アーキテクチャ(Software Reference Architecture, SRA)は、特定のドメインにおける既存のアーキテクチャを標準化し、SRAをインスタンス化し、SRAを新しいシステム開発のためのベンチマークとして使用することで、具体的なアーキテクチャ設計、開発、評価を容易にする有用なツールである。 本稿では、セキュリティデータのためのセキュリティデータオーケストレーション、分析、レポートツールの統合を容易にするセキュリティデータプラットフォームの標準化を実現するためのセキュリティデータオーケストレーション、分析およびレポートのためのSRA(SecDOAR)を紹介した。 SecDOAR SRAは、既存の科学文献とセキュリティデータ標準を活用して設計されている。 我々はSecDOAR SRAを設計方法論、セキュリティデータアーキテクチャの異なる概念に関連するメタモデル、およびSRAの異なる要素やコンポーネントの詳細で文書化してきた。 我々は、SecDOAR SRAの有効性と完全性を評価し、既存の商用ソリューションと比較した。 我々は,SecDOAR SRAをプロトタイププラットフォームとしてインスタンス化し,特定のツールセットのセキュリティオーケストレーション,分析,レポートをサポートすることにより,提案するSecDOAR SRAの実現可能性を示した。 提案したSecDOAR SRAは、セキュリティデータ、セキュリティイベント、およびセキュリティデータ管理プロセスのメタモデル、およびセキュリティメトリクスおよび対応する測定スキーム、セキュリティデータ統合モデル、SecDOAR SRAコンポーネントの説明から構成される。 提案されたSecDOAR SRAは、様々なドメインにおけるサイバーセキュリティ監視、分析、レポートシステムの設計と実装のための構造化アプローチとして、研究者や実践者が使用することができる。

A Software Reference Architecture (SRA) is a useful tool for standardising existing architectures in a specific domain and facilitating concrete architecture design, development and evaluation by instantiating SRA and using SRA as a benchmark for the development of new systems. In this paper, we have presented an SRA for Security Data Orchestration, Analysis and Reporting (SecDOAR) to provide standardisation of security data platforms that can facilitate the integration of security orchestration, analysis and reporting tools for security data. The SecDOAR SRA has been designed by leveraging existing scientific literature and security data standards. We have documented SecDOAR SRA in terms of design methodology, meta-models to relate to different concepts in the security data architecture, and details on different elements and components of the SRA. We have evaluated SecDOAR SRA for its effectiveness and completeness by comparing it with existing commercial solutions. We have demonstrated the feasibility of the proposed SecDOAR SRA by instantiating it as a prototype platform to support security orchestration, analysis and reporting for a selected set of tools. The proposed SecDOAR SRA consists of meta-models for security data, security events and security data management processes as well as security metrics and corresponding measurement schemes, a security data integration model, and a description of SecDOAR SRA components. The proposed SecDOAR SRA can be used by researchers and practitioners as a structured approach for designing and implementing cybersecurity monitoring, analysis and reporting systems in various domains.
翻訳日:2024-08-26 15:40:04 公開日:2024-08-23
# 外国人制約の少ないCSP

CSPs with Few Alien Constraints ( http://arxiv.org/abs/2408.12909v1 )

ライセンス: Link先を確認
Peter Jonsson, Victor Lagerkvist, George Osipov, (参考訳) 制約満足度問題は、関係構造上の制約の集合$\mathcal{A}$が満足できるかどうかを決定するよう要求する(CSP$(\mathcal{A})$)。 CSP$(\mathcal{A} \cup \mathcal{B})$ ここで、$\mathcal{A}$は構造であり、$\mathcal{B}$はエイリアン構造であり、少なくとも$k$の制約が許されるとき、その(パラメータ化された)複雑さを分析する。 我々は、以前分類の試みを免れたいくつかのよく研究された問題に対して、接続を確立し、転送可能な複雑性結果を得る。 論理的および代数的手法を利用して、任意の有限構造に対するFPT対pNP二分法とブール構造に対するよりシャープな二分法、および(等式CSP)$(\mathbb{N},=)$(等式CSP)の1次レダクト、および一般の$\omega$-カテゴリ構造に対する多くの部分的な結果を得る。

The constraint satisfaction problem asks to decide if a set of constraints over a relational structure $\mathcal{A}$ is satisfiable (CSP$(\mathcal{A})$). We consider CSP$(\mathcal{A} \cup \mathcal{B})$ where $\mathcal{A}$ is a structure and $\mathcal{B}$ is an alien structure, and analyse its (parameterized) complexity when at most $k$ alien constraints are allowed. We establish connections and obtain transferable complexity results to several well-studied problems that previously escaped classification attempts. Our novel approach, utilizing logical and algebraic methods, yields an FPT versus pNP dichotomy for arbitrary finite structures and sharper dichotomies for Boolean structures and first-order reducts of $(\mathbb{N},=)$ (equality CSPs), together with many partial results for general $\omega$-categorical structures.
翻訳日:2024-08-26 15:40:04 公開日:2024-08-23
# 何が欲しいのか? マルチターン誘導によるテキスト・画像合成のためのユーザ中心のプロンプト生成

What Do You Want? User-centric Prompt Generation for Text-to-image Synthesis via Multi-turn Guidance ( http://arxiv.org/abs/2408.12910v1 )

ライセンス: Link先を確認
Yilun Liu, Minggui He, Feiyu Yao, Yuhe Ji, Shimin Tao, Jingzhou Du, Duan Li, Jian Gao, Li Zhang, Hao Yang, Boxing Chen, Osamu Yoshie, (参考訳) テキスト・ツー・イメージ合成(TIS)モデルの出現は、記述書から高品質な視覚を生成することによって、デジタル画像生成に大きな影響を与えている。 しかし、これらのモデルはテキストプロンプトの品質と特異性に大きく依存しており、TISモデルで推奨されるプロンプトに慣れていない初心者ユーザーにとっては課題となっている。 既存のソリューションは、ユーザクエリから自動モデル優先のプロンプト生成を通じてこれを緩和する。 しかし、このシングルターン方式は、結果の解釈可能性やユーザ対話性の観点から、限られたユーザー中心性に悩まされている。 これらの問題に対処するため,ユーザ中心性を重視したマルチターン対話型TISプロンプト生成モデルであるDialPromptを提案する。 DialPromptはマルチターンガイダンスワークフローに従うように設計されている。各ラウンドの対話において、モデルが最終的なTISプロンプトを生成する前に、最適化次元に関する好みをユーザに問い合わせる。 これを実現するために、先進的なユーザからの高品質なプロンプトのための15の必須次元をマイニングし、マルチターンデータセットをキュレートした。 このデータセットのトレーニングを通じて、DialPromptは、特定のフレーズと画像属性の相関を理解することによって、解釈可能性を改善することができる。 さらに、即時生成プロセスにおけるユーザコントロールとエンゲージメントの向上を可能にし、よりパーソナライズされ、視覚的に満足するアウトプットを実現する。 実験の結果、ダイアルプロンプトは合成画像の品質において競争力のある結果をもたらすことが示され、既存の急進的な技術アプローチを5.7%上回った。 さらに,ユーザ評価において,ダイアルプロンプトは既存手法を46.5%上回り,19人のレビュアーによって7.9/10と評価されている。

The emergence of text-to-image synthesis (TIS) models has significantly influenced digital image creation by producing high-quality visuals from written descriptions. Yet these models heavily rely on the quality and specificity of textual prompts, posing a challenge for novice users who may not be familiar with TIS-model-preferred prompt writing. Existing solutions relieve this via automatic model-preferred prompt generation from user queries. However, this single-turn manner suffers from limited user-centricity in terms of result interpretability and user interactivity. To address these issues, we propose DialPrompt, a multi-turn dialogue-based TIS prompt generation model that emphasises user-centricity. DialPrompt is designed to follow a multi-turn guidance workflow, where in each round of dialogue the model queries user with their preferences on possible optimization dimensions before generating the final TIS prompt. To achieve this, we mined 15 essential dimensions for high-quality prompts from advanced users and curated a multi-turn dataset. Through training on this dataset, DialPrompt can improve interpretability by allowing users to understand the correlation between specific phrases and image attributes. Additionally, it enables greater user control and engagement in the prompt generation process, leading to more personalized and visually satisfying outputs. Experiments indicate that DialPrompt achieves a competitive result in the quality of synthesized images, outperforming existing prompt engineering approaches by 5.7%. Furthermore, in our user evaluation, DialPrompt outperforms existing approaches by 46.5% in user-centricity score and is rated 7.9/10 by 19 human reviewers.
翻訳日:2024-08-26 15:40:04 公開日:2024-08-23
# 大規模システムのための量子フィッシャー情報の評価

Evaluation of quantum Fisher information for large system ( http://arxiv.org/abs/2408.12918v1 )

ライセンス: Link先を確認
Qi Liu, (参考訳) 量子フィッシャー情報(QFI)は、量子精度の測定、量子情報、多体物理学、その他の領域において重要な役割を果たす。 量子状態の実験からQFIを取得すると、あるパラメータに対する推定精度の限界、絡み合いの度合い、量子状態の幾何学的特性などの洞察が明らかになる。 それでも、QFIとその下界ヒンジの測定の複雑さは量子状態の次元に依存する。 したがって、測定の複雑さを減らすことは重要な課題である。 本稿では,補助システムに情報を転送し,そのサブQFIを測定することで,高次元システムのQFIを評価する手法を提案する。

Quantum Fisher information (QFI) plays a vital role in quantum precision measurement, quantum information, many-body physics, and other domains. Obtaining the QFI from experiment for a quantum state reveals insights such as the limits of estimation accuracy for a certain parameter, the degree of entanglement, and the geometric characteristics of the quantum state. Nonetheless, the measurement complexity of the QFI and its lower bound hinges on the dimension of the quantum state. Consequently, reducing the complexity of measurement is a significant challenge. This paper presents a methodology for evaluating the QFI of high-dimensional systems by transferring information to an auxiliary system and measuring its sub-QFI, while also offering conditions to diminish the dimension of auxiliary system to be measured without affecting the amount of information obtained by it.
翻訳日:2024-08-26 15:40:04 公開日:2024-08-23
# ml_edm package: 機械学習ベースの早期意思決定のためのPythonツールキット

ml_edm package: a Python toolkit for Machine Learning based Early Decision Making ( http://arxiv.org/abs/2408.12925v1 )

ライセンス: Link先を確認
Aurélien Renault, Youssef Achenchabe, Édouard Bertrand, Alexis Bondu, Antoine Cornuéjols, Vincent Lemaire, Asma Dachraoui, (参考訳) \texttt{ml\_edm}はPython 3ライブラリで、時間/シーケンスデータを含む学習タスクの早期決定のために設計されている。 パッケージもモジュール化されており、分類、回帰、あるいは機械学習タスクのための独自のトリガー戦略を簡単に実装できる。 現在、多くのEarly Classification of Time Series (ECTS) の最先端アルゴリズムが並列計算を利用したライブラリで効率的に実装されている。 この構文は \texttt{scikit-learn} で導入されたものに続くもので、推定器とパイプラインは \texttt{ml\_edm} と互換性がある。 このソフトウェアはBSD-3-Clauseライセンスで配布されており、ソースコードは \url{https://github.com/ML-EDM/ml_edm} にある。

\texttt{ml\_edm} is a Python 3 library, designed for early decision making of any learning tasks involving temporal/sequential data. The package is also modular, providing researchers an easy way to implement their own triggering strategy for classification, regression or any machine learning task. As of now, many Early Classification of Time Series (ECTS) state-of-the-art algorithms, are efficiently implemented in the library leveraging parallel computation. The syntax follows the one introduce in \texttt{scikit-learn}, making estimators and pipelines compatible with \texttt{ml\_edm}. This software is distributed over the BSD-3-Clause license, source code can be found at \url{https://github.com/ML-EDM/ml_edm}.
翻訳日:2024-08-26 15:40:04 公開日:2024-08-23
# 投票におけるスコーリング規則の帰納的・反トラスト的説明

Abductive and Contrastive Explanations for Scoring Rules in Voting ( http://arxiv.org/abs/2408.12927v1 )

ライセンス: Link先を確認
Clément Contet, Umberto Grandi, Jérôme Mengin, (参考訳) 我々は、投票ルールを、勝者(クラス)を有権者の好み(例)のプロファイルに割り当てる分類子として見ている。 そこで本稿では,選好プロファイルの最小部分集合を同定するために,形式的説明可能性,特に誘惑的かつコントラスト的な説明から手法を適用することを提案する。 形式的な説明は、収賄、可能で必要な勝者の識別、選好学習などの計算社会選択において研究された古典的な問題と強い関係があることが判明した。 我々は、ルールの採点のための帰納的および対照的な説明を計算するためのアルゴリズムを設計する。 ボルダ法則では、最小の導出的説明量の大きさの低い境界を見つけ、選好プロファイルの特性と最小の導出的説明量の間の相関を同定するシミュレーションを行う。

We view voting rules as classifiers that assign a winner (a class) to a profile of voters' preferences (an instance). We propose to apply techniques from formal explainability, most notably abductive and contrastive explanations, to identify minimal subsets of a preference profile that either imply the current winner or explain why a different candidate was not elected. Formal explanations turn out to have strong connections with classical problems studied in computational social choice such as bribery, possible and necessary winner identification, and preference learning. We design algorithms for computing abductive and contrastive explanations for scoring rules. For the Borda rule, we find a lower bound on the size of the smallest abductive explanations, and we conduct simulations to identify correlations between properties of preference profiles and the size of their smallest abductive explanations.
翻訳日:2024-08-26 15:40:04 公開日:2024-08-23
# ParGo: 部分ビューとグローバルビューを備えたブリッジングビジョンランゲージ

ParGo: Bridging Vision-Language with Partial and Global Views ( http://arxiv.org/abs/2408.12928v1 )

ライセンス: Link先を確認
An-Lan Wang, Bin Shan, Wei Shi, Kun-Yu Lin, Xiang Fei, Guozhi Tang, Lei Liao, Jingqun Tang, Can Huang, Wei-Shi Zheng, (参考訳) この研究は、多モーダル大言語モデル(MLLM)のビジョンと言語モダリティを結びつけるために設計された、新しい部分言語プロジェクタであるParGoを提示する。 従来のグローバルアテンションベースのプロジェクタに依存した作業とは異なり、ParGoは、個別に訓練された視覚エンコーダとLLM間の表現ギャップをグローバルビューと部分ビューを統合することで橋渡しし、顕著な領域でのオーバーエンハンシスを軽減する。 ParGoの効果的なトレーニングを容易にするため,ParGoCap-1M-PTという画像テキストデータセットを大規模に収集した。 いくつかのMLLMベンチマークでの大規模な実験は、ParGoの有効性を示し、ビジョンと言語モダリティの整合性においてその優位性を強調している。 従来のQ-Formerプロジェクタと比較して、ParGoはMMEベンチマークで259.96の改善を実現しています。 さらに,ParGoは他のプロジェクターよりも優れており,特に知覚能力の細部を重視したタスクでは顕著に優れていた。

This work presents ParGo, a novel Partial-Global projector designed to connect the vision and language modalities for Multimodal Large Language Models (MLLMs). Unlike previous works that rely on global attention-based projectors, our ParGo bridges the representation gap between the separately pre-trained vision encoders and the LLMs by integrating global and partial views, which alleviates the overemphasis on prominent regions. To facilitate the effective training of ParGo, we collect a large-scale detail-captioned image-text dataset named ParGoCap-1M-PT, consisting of 1 million images paired with high-quality captions. Extensive experiments on several MLLM benchmarks demonstrate the effectiveness of our ParGo, highlighting its superiority in aligning vision and language modalities. Compared to conventional Q-Former projector, our ParGo achieves an improvement of 259.96 in MME benchmark. Furthermore, our experiments reveal that ParGo significantly outperforms other projectors, particularly in tasks that emphasize detail perception ability.
翻訳日:2024-08-26 15:40:04 公開日:2024-08-23
# 前景の独立性を考慮した動物識別と背景モデリング

Animal Identification with Independent Foreground and Background Modeling ( http://arxiv.org/abs/2408.12930v1 )

ライセンス: Link先を確認
Lukas Picek, Lukas Neumann, Jiri Matas, (参考訳) 本研究では,個々の動物の視覚的識別において,背景と前景をしっかりと活用する手法を提案する。 実験では、Segment Anythingのようなメソッドと独立のフォアグラウンドとバックグラウンド関連のモデリングで簡単に分離できることが示され、結果が改善された。 この2つの予測は、トレーニングにおける外観の曖昧さに対処し、推論フェーズでキャリブレーションされたアウトプットを生成するのに役立つ新しいパーインスタンス温度スケーリング(Per-Instance temperature Scaling)によって、原則的に組み合わせられている。 背景からのアイデンティティ予測のために,新しい空間モデルと時間モデルを提案する。 2つの問題において、基準値の相対誤差は、それぞれ22.3%と8.8%削減された。 新しい場所にオブジェクトが現れる場合、背景ドリフトの例では、精度が倍になる。

We propose a method that robustly exploits background and foreground in visual identification of individual animals. Experiments show that their automatic separation, made easy with methods like Segment Anything, together with independent foreground and background-related modeling, improves results. The two predictions are combined in a principled way, thanks to novel Per-Instance Temperature Scaling that helps the classifier to deal with appearance ambiguities in training and to produce calibrated outputs in the inference phase. For identity prediction from the background, we propose novel spatial and temporal models. On two problems, the relative error w.r.t. the baseline was reduced by 22.3% and 8.8%, respectively. For cases where objects appear in new locations, an example of background drift, accuracy doubles.
翻訳日:2024-08-26 15:40:04 公開日:2024-08-23
# WildFusion:Calibrated similarity Fusionを用いた個体識別

WildFusion: Individual Animal Identification with Calibrated Similarity Fusion ( http://arxiv.org/abs/2408.12934v1 )

ライセンス: Link先を確認
Vojtěch Cermak, Lukas Picek, Lukáš Adam, Lukáš Neumann, Jiří Matas, (参考訳) 本研究では,多様な動物種の個体識別のための新しい手法,WildFusionを提案する。 この方法は、ディープスコア(例えば、MegaDescriptorまたはDINOv2)とローカルマッチング類似性(例えば、LoFTRおよびLightGlue)を融合して、個々の動物を識別する。 グローバルおよびローカル情報融合は、類似度スコアキャリブレーションにより容易となる。 ゼロショット設定では、ローカル類似度スコアのみに依存し、WildFusionは平均精度76.2%の17データセットで測定された。 これは、現在の最先端モデルであるMegaDescriptor-Lよりも優れている。 データセット固有のキャリブレーションを適用すると、平均精度は2.3%向上する。 ワイルドフュージョンは局所的な類似点とグローバルな類似点の両方で、最先端の精度を著しく上回り、平均精度は84.0%に達し、8.5ポイント上昇し、平均相対誤差は35%低下した。 コードと事前訓練されたモデルを5つ公開し、エコロジーと保全の即時利用を可能にします。

We propose a new method - WildFusion - for individual identification of a broad range of animal species. The method fuses deep scores (e.g., MegaDescriptor or DINOv2) and local matching similarity (e.g., LoFTR and LightGlue) to identify individual animals. The global and local information fusion is facilitated by similarity score calibration. In a zero-shot setting, relying on local similarity score only, WildFusion achieved mean accuracy, measured on 17 datasets, of 76.2%. This is better than the state-of-the-art model, MegaDescriptor-L, whose training set included 15 of the 17 datasets. If a dataset-specific calibration is applied, mean accuracy increases by 2.3% percentage points. WildFusion, with both local and global similarity scores, outperforms the state-of-the-art significantly - mean accuracy reached 84.0%, an increase of 8.5 percentage points; the mean relative error drops by 35%. We make the code and pre-trained models publicly available5, enabling immediate use in ecology and conservation.
翻訳日:2024-08-26 15:40:04 公開日:2024-08-23
# 信頼できる、責任があり、安全なAI: チャレンジと軽減を伴うAI安全のための総合的なアーキテクチャフレームワーク

Trustworthy, Responsible, and Safe AI: A Comprehensive Architectural Framework for AI Safety with Challenges and Mitigations ( http://arxiv.org/abs/2408.12935v1 )

ライセンス: Link先を確認
Chen Chen, Ziyao Liu, Weifeng Jiang, Goh Si Qi, KwoK-Yan Lam, (参考訳) AI安全性は、AIシステムの安全な採用とデプロイにおいて重要な領域である。 AIの急速な普及、特に最近のジェネレーティブAI(またはGAI)の進歩により、AIシステムの設計、開発、導入、デプロイを支える技術エコシステムは大きく変化し、公安と国家安全保障への影響に対処するAI安全の範囲が拡大した。 本稿では,AI安全性の理解と分析のための新しいアーキテクチャフレームワークを提案し,その特徴を3つの観点から定義する。 これらの観点から、AIの安全性に関する現在の研究と進歩を幅広くレビューし、主要な課題と緩和アプローチを強調します。 最先端技術、特にLarge Language Models(LLM)の例を通して、AI安全性を設計、テストするための革新的なメカニズム、方法論、技術を提示します。 私たちの目標は、AI安全研究の進歩を促進し、究極的には、デジタルトランスフォーメーションに対する人々の信頼を高めることです。

AI Safety is an emerging area of critical importance to the safe adoption and deployment of AI systems. With the rapid proliferation of AI and especially with the recent advancement of Generative AI (or GAI), the technology ecosystem behind the design, development, adoption, and deployment of AI systems has drastically changed, broadening the scope of AI Safety to address impacts on public safety and national security. In this paper, we propose a novel architectural framework for understanding and analyzing AI Safety; defining its characteristics from three perspectives: Trustworthy AI, Responsible AI, and Safe AI. We provide an extensive review of current research and advancements in AI safety from these perspectives, highlighting their key challenges and mitigation approaches. Through examples from state-of-the-art technologies, particularly Large Language Models (LLMs), we present innovative mechanism, methodologies, and techniques for designing and testing AI safety. Our goal is to promote advancement in AI safety research, and ultimately enhance people's trust in digital transformation.
翻訳日:2024-08-26 15:40:04 公開日:2024-08-23
# Smooth InfoMax -- より簡単なポストホック解釈性を目指して

Smooth InfoMax -- Towards easier Post-Hoc interpretability ( http://arxiv.org/abs/2408.12936v1 )

ライセンス: Link先を確認
Fabian Denoodt, Bart de Boer, José Oramas, (参考訳) Smooth InfoMax(SIM)は,ニューラルネットワークの様々な深さで学習された表現に解釈可能性制約を組み込む,自己教師型表現学習の新しい手法である。 SIMのアーキテクチャは確率的モジュールに分割され、それぞれがInfoNCEバウンドを使って局所的に最適化される。 VAEにインスパイアされたこれらの加群からの表現は、ガウス分布からのサンプルとして設計され、さらに標準正規分布に近いように制約されている。 この結果、スムーズで予測可能な空間となり、デコーダを通じて潜在空間のトラバースを可能にし、学習された表現のポストホック解析を容易にする。 逐次的な音声データに対してSIMの性能を評価し,その解釈が不十分なGreedy InfoMax (GIM) と競合することを示す。 さらに、SIMの内部表現に関する洞察を提供し、包含された情報が表現全体を通してより絡み合っており、次元の小さな部分集合に集中していることを示す。 これはSIMの解釈性の向上をさらに強調する。

We introduce Smooth InfoMax (SIM), a novel method for self-supervised representation learning that incorporates an interpretability constraint into the learned representations at various depths of the neural network. SIM's architecture is split up into probabilistic modules, each locally optimized using the InfoNCE bound. Inspired by VAEs, the representations from these modules are designed to be samples from Gaussian distributions and are further constrained to be close to the standard normal distribution. This results in a smooth and predictable space, enabling traversal of the latent space through a decoder for easier post-hoc analysis of the learned representations. We evaluate SIM's performance on sequential speech data, showing that it performs competitively with its less interpretable counterpart, Greedy InfoMax (GIM). Moreover, we provide insights into SIM's internal representations, demonstrating that the contained information is less entangled throughout the representation and more concentrated in a smaller subset of the dimensions. This further highlights the improved interpretability of SIM.
翻訳日:2024-08-26 15:40:04 公開日:2024-08-23
# iSee: ケースベースのレコメンデーションを用いたマルチショット説明可能なAIの改善

iSee: Advancing Multi-Shot Explainable AI Using Case-based Recommendations ( http://arxiv.org/abs/2408.12941v1 )

ライセンス: Link先を確認
Anjana Wijekoon, Nirmalie Wiratunga, David Corsar, Kyle Martin, Ikechukwu Nkisi-Orji, Chamath Palihawadana, Marta Caro-Martínez, Belen Díaz-Agudo, Derek Bridge, Anne Liret, (参考訳) 説明可能なAI(XAI)は、AIによる意思決定プロセスにおけるユーザの信頼と満足度を大幅に向上させる。 最近の知見は、単一の説明者がAIシステムにおける複数のユーザの多様なニーズを満たすことができないかもしれないことを示唆している。 これは"マルチショット"アプローチの必要性を強調し、"説明戦略"として導入するものを形成するために、説明器を組み合わせています。 特定のユーザやユーザグループに敬意を表した“説明体験”では、AI意思決定プロセスを強化するために設計された、パーソナライズされた戦略とのインタラクションを記述している。 iSeeプラットフォームは、XAIのベストプラクティスを前進させるためにケースベースの推論を使用して、説明体験のインテリジェントな共有と再利用を目的として設計されている。 このプラットフォームは、エンドユーザーのニーズを満たすために、AIシステムの最も適切な説明戦略を設計し、反復的に修正する、AIシステムデザイナ、すなわち設計ユーザを可能にするツールを提供する。 iSeeプラットフォーム内で生成されたすべての知識は、相互運用性のためのiSeeオントロジーによって形式化されている。 我々は、AIとXAIの専門知識の異なる6つの設計ユーザによるiSeeプラットフォームのユーザビリティと有用性を評価するために、要約混合手法研究プロトコルを使用します。 以上の結果から,iSeeプラットフォームはアプリケーション全体にわたって効果的に一般化し,XAIベストプラクティスの採用を促進する可能性が確認された。

Explainable AI (XAI) can greatly enhance user trust and satisfaction in AI-assisted decision-making processes. Recent findings suggest that a single explainer may not meet the diverse needs of multiple users in an AI system; indeed, even individual users may require multiple explanations. This highlights the necessity for a "multi-shot" approach, employing a combination of explainers to form what we introduce as an "explanation strategy". Tailored to a specific user or a user group, an "explanation experience" describes interactions with personalised strategies designed to enhance their AI decision-making processes. The iSee platform is designed for the intelligent sharing and reuse of explanation experiences, using Case-based Reasoning to advance best practices in XAI. The platform provides tools that enable AI system designers, i.e. design users, to design and iteratively revise the most suitable explanation strategy for their AI system to satisfy end-user needs. All knowledge generated within the iSee platform is formalised by the iSee ontology for interoperability. We use a summative mixed methods study protocol to evaluate the usability and utility of the iSee platform with six design users across varying levels of AI and XAI expertise. Our findings confirm that the iSee platform effectively generalises across applications and its potential to promote the adoption of XAI best practices.
翻訳日:2024-08-26 15:40:04 公開日:2024-08-23
# 因果誘導型能動学習による大規模言語モデルの曖昧化

Causal-Guided Active Learning for Debiasing Large Language Models ( http://arxiv.org/abs/2408.12942v1 )

ライセンス: Link先を確認
Zhouhao Sun, Li Du, Xiao Ding, Yixuan Ma, Kaitao Qiu, Ting Liu, Bing Qin, (参考訳) 有望な性能を達成する一方で、最近の分析により、現在の生成型大規模言語モデル(LLM)は、まだデータセットバイアスを捕捉し、世代に利用し、LLMの一般化性や有害性を損なう可能性があることが示されている。 しかし、データセットバイアスの多様性と過最適化問題により、従来の知識に基づくデバイアス法や微調整に基づくデバイアス法は現在のLLMには適さない可能性がある。 この問題に対処するため,本研究では,情報バイアス標本の自動的・自律的同定とバイアスパターンの誘導を目的とした,カジュアル誘導型アクティブラーニング(CAL)フレームワークを提案する。 次に、LLMが生成時にデータセットバイアスを利用するのを防止するために、コスト効率が高く効率的な文脈内学習手法を用いる。 実験結果から,CALは典型的なバイアスパターンを効果的に認識し,様々なバイアスパターンを誘導できることが示唆された。

Although achieving promising performance, recent analyses show that current generative large language models (LLMs) may still capture dataset biases and utilize them for generation, leading to poor generalizability and harmfulness of LLMs. However, due to the diversity of dataset biases and the over-optimization problem, previous prior-knowledge-based debiasing methods and fine-tuning-based debiasing methods may not be suitable for current LLMs. To address this issue, we explore combining active learning with the causal mechanisms and propose a casual-guided active learning (CAL) framework, which utilizes LLMs itself to automatically and autonomously identify informative biased samples and induce the bias patterns. Then a cost-effective and efficient in-context learning based method is employed to prevent LLMs from utilizing dataset biases during generation. Experimental results show that CAL can effectively recognize typical biased instances and induce various bias patterns for debiasing LLMs.
翻訳日:2024-08-26 15:40:04 公開日:2024-08-23
# 非定常部分空間補正による資源最適化動的量子アルゴリズムの実現に向けて

Towards a Resource-Optimized Dynamic Quantum Algorithm via Non-iterative Auxiliary Subspace Corrections ( http://arxiv.org/abs/2408.12944v1 )

ライセンス: Link先を確認
Chayan Patra, Debaarjun Mukherjee, Sonaldeep Halder, Dibyendu Mondal, Rahul Maitra, (参考訳) 電子構造理論に関連する最近の量子アルゴリズムは、重要な多体演算子を選択的に含むことにより、主に閾値に基づくアンザッツの動的構築に焦点を当てている。 これらの方法は、アンザッツにより多くの演算子を含むようにしきい値を調整することで、体系的により正確にすることができる。 しかし、このような改良は、特に高相関の分子系において、回路深さの急激な増殖のコストがかかる。 本研究では,アンザッツの動的選択された主成分への分離に依存した新しい理論フレームワークの開発により,この問題に対処する。 これにより、極端に浅い深さの回路を用いて主成分を含む計算を行うことができるが、残りの補助成分の効果はコスト効率の低い非定常補正によってエネルギー関数に折り畳まれ、必要な精度が保証される。 本稿では,主成分から補助パラメータを解析的に予測する形式的手法を提案する。 補助的な部分空間補正は追加の量子資源を伴わないが、アンザッツの不十分な表現的なコアを補い、かなりの量の電子相関を回復する。 我々は、多くの強い相関分子系を用いて、我々の形式主義の資源効率と精度を数値的に検証した。

Recent quantum algorithms pertaining to electronic structure theory primarily focus on threshold-based dynamic construction of ansatz by selectively including important many-body operators. These methods can be made systematically more accurate by tuning the threshold to include more number of operators into the ansatz. However, such improvements come at the cost of rapid proliferation of the circuit depth, especially for highly correlated molecular systems. In this work, we address this issue by the development of a novel theoretical framework that relies on the segregation of an ansatz into a dynamically selected core principal component, which is, by construction adiabatically decoupled from the remaining operators. This enables us to perform computations involving the principal component using extremely shallow-depth circuits whereas, the effect of the remaining auxiliary component is folded into the energy function via a cost-efficient non-iterative correction, ensuring the requisite accuracy. We propose a formalism that analytically predicts the auxiliary parameters from the principal ones, followed by a suite of non-iterative auxiliary subspace correction techniques with different levels of sophistication. The auxiliary subspace corrections incur no additional quantum resources, yet complement an inadequately expressive core of the ansatz to recover significant amount of electronic correlations. We have numerically validated the resource efficiency and accuracy of our formalism with a number of strongly correlated molecular systems.
翻訳日:2024-08-26 15:30:07 公開日:2024-08-23
# 組立ミスの発見:産業応用におけるエラーセグメンテーション

Find the Assembly Mistakes: Error Segmentation for Industrial Applications ( http://arxiv.org/abs/2408.12945v1 )

ライセンス: Link先を確認
Dan Lehman, Tim J. Schoonbeek, Shao-Hsuan Hung, Jacek Kustra, Peter H. N. de With, Fons van der Sommen, (参考訳) 組立および保守手順における誤りの認識は、作業効率を高め、計画外のダウンタイムを防ぐことができるため、産業アプリケーションにとって重要である。 アセンブリ状態認識が注目されているが、現在の研究はアセンブリエラーのローカライゼーションを調査していない。 そこで本研究では,(正しく)意図したアセンブリ状態とテストイメージとの差を検出することで,アセンブリエラーをローカライズするStateDiffNetを提案する。 StateDiffNetは合成生成されたイメージペアに基づいてトレーニングされており、検出すべき意味のある変更のタイプを完全にコントロールする。 提案手法は,実際のエゴ中心のビデオデータから得られたアセンブリエラーを,トレーニング中に提示されない状態とエラータイプの両方に対して正しくローカライズする手法である。 さらに、この産業アプリケーションへの変更検出の展開は、最先端の変更検出アルゴリズムのメカニズムに関する貴重な洞察と考察を提供する。 コードとデータ生成パイプラインは、https://timschoonbeek.github.io/error_seg.comで公開されている。

Recognizing errors in assembly and maintenance procedures is valuable for industrial applications, since it can increase worker efficiency and prevent unplanned down-time. Although assembly state recognition is gaining attention, none of the current works investigate assembly error localization. Therefore, we propose StateDiffNet, which localizes assembly errors based on detecting the differences between a (correct) intended assembly state and a test image from a similar viewpoint. StateDiffNet is trained on synthetically generated image pairs, providing full control over the type of meaningful change that should be detected. The proposed approach is the first to correctly localize assembly errors taken from real ego-centric video data for both states and error types that are never presented during training. Furthermore, the deployment of change detection to this industrial application provides valuable insights and considerations into the mechanisms of state-of-the-art change detection algorithms. The code and data generation pipeline are publicly available at: https://timschoonbeek.github.io/error_seg.
翻訳日:2024-08-26 15:30:07 公開日:2024-08-23
# E-code: 事前訓練されたモデルとエキスパートエンコーダグループによる効率的なコード生成をマスターする

E-code: Mastering Efficient Code Generation through Pretrained Models and Expert Encoder Group ( http://arxiv.org/abs/2408.12948v1 )

ライセンス: Link先を確認
Yue Pan, Chen Lyu, Zhenyu Yang, Lantian Li, Qi Liu, Xiuting Shao, (参考訳) コンテキスト: Mooreの法則の廃止に伴い、ソフトウェア産業は、継続的なパフォーマンス向上のための代替ソリューションを見つけることの重要性を増している。 ソフトウェア性能最適化の意義と研究成果は近年増加しており、特にLarge Language Models (LLMs) による進歩が顕著である。 しかし、従来のパフォーマンス欠陥の修正戦略は、競争力のあるコード効率の最適化レベルで大きな制限を示しており、このトピックの研究は驚くほど少ない。 目的: 本研究は, この領域における研究ギャップに対処することを目的として, 遭遇した様々な課題に対する実践的な解決策を提供する。 具体的には、従来の性能エラー修正戦略の制約を克服し、競合するコード効率最適化領域に適した言語モデル(LM)を開発した。 方法: 先進的なプログラム合成 LM である E-code を導入した。 近年のエキスパートLMの成功に触発されて、私たちはExpert Encoder Groupと呼ばれる革新的な構造を設計しました。 この構造は複数のエキスパートエンコーダを使用して、異なる入力タイプに適した特徴を抽出する。 競合するデータセット上での他の主要なモデルに対するE-codeの性能を評価し,詳細なアブレーション実験を行った。 結果: 体系的な評価により、E-codeは54.98%のコード効率向上を実現し、他の先進モデルよりも大幅に向上した。 アブレーション実験では,エキスパートエンコーダ群およびE-code内の他のコンポーネントの重要性がさらに検証された。 結論: 研究結果は, エキスパートエンコーダ群が効率最適化タスクにおいて, 様々な入力を効果的に処理し, モデルの性能を著しく向上させることができることを示唆している。

Context: With the waning of Moore's Law, the software industry is placing increasing importance on finding alternative solutions for continuous performance enhancement. The significance and research results of software performance optimization have been on the rise in recent years, especially with the advancement propelled by Large Language Models(LLMs). However, traditional strategies for rectifying performance flaws have shown significant limitations at the competitive code efficiency optimization level, and research on this topic is surprisingly scarce. Objective: This study aims to address the research gap in this domain, offering practical solutions to the various challenges encountered. Specifically, we have overcome the constraints of traditional performance error rectification strategies and developed a Language Model (LM) tailored for the competitive code efficiency optimization realm. Method: We introduced E-code, an advanced program synthesis LM. Inspired by the recent success of expert LMs, we designed an innovative structure called the Expert Encoder Group. This structure employs multiple expert encoders to extract features tailored for different input types. We assessed the performance of E-code against other leading models on a competitive dataset and conducted in-depth ablation experiments. Results: Upon systematic evaluation, E-code achieved a 54.98% improvement in code efficiency, significantly outperforming other advanced models. In the ablation experiments, we further validated the significance of the expert encoder group and other components within E-code. Conclusion: The research findings indicate that the expert encoder group can effectively handle various inputs in efficiency optimization tasks, significantly enhancing the model's performance.
翻訳日:2024-08-26 15:30:07 公開日:2024-08-23
# 情報身体:コードとロボットにおける情報構造の役割

Informational Embodiment: Computational role of information structure in codes and robots ( http://arxiv.org/abs/2408.12950v1 )

ライセンス: Link先を確認
Alexandre Pitti, Kohei Nakajima, Yasuo Kuniyoshi, (参考訳) 身体形態学は、エージェントによって情報が認識され、処理される方法において重要な役割を果たす。 我々は,センサの精度,モータの精度,配置,体形状,ロボットの情報構造や計算符号の形状について,情報理論(IT)を考察する。 本来のアイデアとして,本質的なノイズや材料的制約にもかかわらず,情報の伝達・伝達を行う物理的コミュニケーションチャネルとして,ロボットの身体を想定する。 これに続いて、情報と不確実性の尺度であるエントロピーは、ロボット設計の効率を最大化し、それぞれのアルゴリズムの符号を最大化するために用いられる。 これは1969年にバーロウが生物学で導入したエントロピー最大化(PEM)の原理として知られている。 シャノンの情報源符号化定理(英語版)は、感覚運動情報の観点から異なるタイプの身体を比較するためのフレームワークを提供する。 PMEに則って、我々は、誤り訂正のための情報容量とノイズに対する堅牢性、およびパーシモニーの観点から、シャノン限界に達したITで使用される効率的なコードの特別なクラスを導入する。 これらの効率的なコードは、洞察に富んだ量子化とランダム性を利用して、不確実性、冗長性、一貫性を扱うことができる。 これらの特徴は、インテリジェントシステムにおける知覚と制御に使用できる。 様々な事例と議論の締めくくりとして、我々はInformational Embodiment(インフォメーション・エンボディーメント)と呼ばれる我々のフレームワークを、運動理論やバイオインスパイアされたロボティクスに応用し、運動シナジー、貯水池計算、形態計算といった概念に触れた。 これらの洞察は、情報理論が自然システムと人工システムの両方のインテリジェンスの具体化とどのように交わるかを深く理解するのに寄与する。

The body morphology plays an important role in the way information is perceived and processed by an agent. We address an information theory (IT) account on how the precision of sensors, the accuracy of motors, their placement, the body geometry, shape the information structure in robots and computational codes. As an original idea, we envision the robot's body as a physical communication channel through which information is conveyed, in and out, despite intrinsic noise and material limitations. Following this, entropy, a measure of information and uncertainty, can be used to maximize the efficiency of robot design and of algorithmic codes per se. This is known as the principle of Entropy Maximization (PEM) introduced in biology by Barlow in 1969. The Shannon's source coding theorem provides then a framework to compare different types of bodies in terms of sensorimotor information. In line with PME, we introduce a special class of efficient codes used in IT that reached the Shannon limits in terms of information capacity for error correction and robustness against noise, and parsimony. These efficient codes, which exploit insightfully quantization and randomness, permit to deal with uncertainty, redundancy and compacity. These features can be used for perception and control in intelligent systems. In various examples and closing discussions, we reflect on the broader implications of our framework that we called Informational Embodiment to motor theory and bio-inspired robotics, touching upon concepts like motor synergies, reservoir computing, and morphological computation. These insights can contribute to a deeper understanding of how information theory intersects with the embodiment of intelligence in both natural and artificial systems.
翻訳日:2024-08-26 15:30:07 公開日:2024-08-23
# 損傷検出技術の現状と課題

State-of-the-Art Fails in the Art of Damage Detection ( http://arxiv.org/abs/2408.12953v1 )

ライセンス: Link先を確認
Daniela Ivanova, Marco Aversa, Paul Henderson, John Williamson, (参考訳) 絵画、写真、織物、モザイク、フレスコ画などの類似メディアの損傷を正確に検出・分類することは、文化遺産保存に不可欠である。 機械学習モデルは、損傷操作者が事前訓練を知っていれば、世界的劣化の補正に優れるが、教師付きトレーニング後にも損傷がどこにあるかを予測できないことが示される。 各種アナログメディアにおける損傷検出のためのデータセットであるDamBenchを紹介した。 CNN, Transformer, およびテキスト誘導拡散分割モデルを評価し, メディアタイプ間の一般化の限界を明らかにする。

Accurately detecting and classifying damage in analogue media such as paintings, photographs, textiles, mosaics, and frescoes is essential for cultural heritage preservation. While machine learning models excel in correcting global degradation if the damage operator is known a priori, we show that they fail to predict where the damage is even after supervised training; thus, reliable damage detection remains a challenge. We introduce DamBench, a dataset for damage detection in diverse analogue media, with over 11,000 annotations covering 15 damage types across various subjects and media. We evaluate CNN, Transformer, and text-guided diffusion segmentation models, revealing their limitations in generalising across media types.
翻訳日:2024-08-26 15:30:07 公開日:2024-08-23
# 基礎モデル時代のイメージセグメンテーション:サーベイ

Image Segmentation in Foundation Model Era: A Survey ( http://arxiv.org/abs/2408.12957v1 )

ライセンス: Link先を確認
Tianfei Zhou, Fei Zhang, Boyu Chang, Wenguan Wang, Ye Yuan, Ender Konukoglu, Daniel Cremers, (参考訳) イメージセグメンテーション(英: Image segmentation)は、コンピュータビジョンにおける長年にわたる課題であり、N-Cut、FCN、MaskFormerといったアルゴリズムが数十年にわたって研究してきた。 ファンデーションモデル(FM)の出現に伴い、現代セグメンテーション手法は、画像セグメンテーションにFM(例えば、CLIP、安定拡散、DINO)を適応するか、または専用のセグメンテーション基盤モデル(例えば、SAM)を開発することによって、新しいエポックに突入した。 これらのアプローチは、優れたセグメンテーション性能を提供するだけでなく、これまでディープラーニング環境では見られなかった新しいセグメンテーション機能も提供する。 しかし、イメージセグメンテーションにおける現在の研究は、これらの進歩に関連する特徴、課題、解決策の詳細な分析を欠いている。 本調査は、FM駆動画像セグメンテーションを中心とした最先端の研究を徹底的にレビューすることで、このギャップを埋めようとしている。 汎用画像セグメンテーション(セグメンテーション、インスタンスセグメンテーション、パン光学セグメンテーション)と、プロンプト可能な画像セグメンテーション(インタラクティブセグメンテーション、参照セグメンテーション、少数ショットセグメンテーション)の2つの基本的な研究行について、それぞれのタスク設定、背景概念、重要な課題について考察する。 さらに,CLIP,Stable Diffusion,DINOといったFMからのセグメンテーション知識の出現に関する洞察を提供する。 現在の研究成果の広さを包括する,300以上のセグメンテーションアプローチの概要を概観する。 その後、今後の研究に向けて、オープンな課題と潜在的な道のりについて議論する。 我々は,この新鮮で包括的で体系的な調査が,高度な画像分割システムの進化を触媒すると考えている。

Image segmentation is a long-standing challenge in computer vision, studied continuously over several decades, as evidenced by seminal algorithms such as N-Cut, FCN, and MaskFormer. With the advent of foundation models (FMs), contemporary segmentation methodologies have embarked on a new epoch by either adapting FMs (e.g., CLIP, Stable Diffusion, DINO) for image segmentation or developing dedicated segmentation foundation models (e.g., SAM). These approaches not only deliver superior segmentation performance, but also herald newfound segmentation capabilities previously unseen in deep learning context. However, current research in image segmentation lacks a detailed analysis of distinct characteristics, challenges, and solutions associated with these advancements. This survey seeks to fill this gap by providing a thorough review of cutting-edge research centered around FM-driven image segmentation. We investigate two basic lines of research -- generic image segmentation (i.e., semantic segmentation, instance segmentation, panoptic segmentation), and promptable image segmentation (i.e., interactive segmentation, referring segmentation, few-shot segmentation) -- by delineating their respective task settings, background concepts, and key challenges. Furthermore, we provide insights into the emergence of segmentation knowledge from FMs like CLIP, Stable Diffusion, and DINO. An exhaustive overview of over 300 segmentation approaches is provided to encapsulate the breadth of current research efforts. Subsequently, we engage in a discussion of open issues and potential avenues for future research. We envisage that this fresh, comprehensive, and systematic survey catalyzes the evolution of advanced image segmentation systems.
翻訳日:2024-08-26 15:30:07 公開日:2024-08-23
# オーストラリアにおけるDNS依存度とそのセキュリティへの影響の分析 : 一般集団と先住民集団の比較研究

Analysis of DNS Dependencies and their Security Implications in Australia: A Comparative Study of General and Indigenous Populations ( http://arxiv.org/abs/2408.12958v1 )

ライセンス: Link先を確認
Niousha Nazemi, Omid Tavallaie, Anna Maria Mandalari, Hamed Haddadi, Ralph Holz, Albert Y. Zomaya, (参考訳) 本稿では,インターネットの集中化がDNS提供に与える影響,特にオーストラリア先住民等の脆弱な人口に対する影響について検討する。 本研究は,先住民族に奉仕するオーストラリア政府のドメインのDNS依存性を,一般市民に奉仕するドメインと比較して分析する。 調査では、DNSプロバイダを主要な(ハイパースケール、米国本社の企業)、非リーディング(オーストラリア拠点または非オーストラリア企業)、オーストラリア政府主導のプロバイダに分類した。 そして、オーストラリア政府ドメインとそのDNSプロバイダ間の直接的な依存関係と、プロバイダのさらなるレイヤを含む間接的な依存関係を示すために、依存関係グラフを構築します。 さらに、DNSプロバイダのIPロケーション分析を行い、DNSサーバの地理的分布をマップアウトし、オーストラリア内外におけるDNSサービスへの集中度を明らかにする。 最後に、攻撃者の意図やリソースに基づいて、潜在的なサイバー攻撃者を分類する攻撃モデルを導入する。 攻撃者モデルとDNS依存結果を考慮することにより,攻撃者集団に対する各集団のセキュリティ脆弱性を議論し,オーストラリアの政府サービスのDNSサービスの現在の設定がデジタル分割に寄与するかどうかを分析する。

This paper investigates the impact of internet centralization on DNS provisioning, particularly its effects on vulnerable populations such as the indigenous people of Australia. We analyze the DNS dependencies of Australian government domains that serve indigenous communities compared to those serving the general population. Our study categorizes DNS providers into leading (hyperscaler, US-headquartered companies), non-leading (smaller Australian-headquartered or non-Australian companies), and Australian government-hosted providers. Then, we build dependency graphs to demonstrate the direct dependency between Australian government domains and their DNS providers and the indirect dependency involving further layers of providers. Additionally, we conduct an IP location analysis of DNS providers to map out the geographical distribution of DNS servers, revealing the extent of centralization on DNS services within or outside of Australia. Finally, we introduce an attacker model to categorize potential cyber attackers based on their intentions and resources. By considering attacker models and DNS dependency results, we discuss the security vulnerability of each population group against any group of attackers and analyze whether the current setup of the DNS services of Australian government services contributes to a digital divide.
翻訳日:2024-08-26 15:30:07 公開日:2024-08-23
# マルチモーダルコントラスト型インコンテキストラーニング

Multimodal Contrastive In-Context Learning ( http://arxiv.org/abs/2408.12959v1 )

ライセンス: Link先を確認
Yosuke Miyanishi, Minh Le Nguyen, (参考訳) LLM(Large Language Models)の急速な普及は、勾配のないインコンテキスト学習(ICL)の重要性を浮き彫りにした。 しかし、その内部の働きを解釈することは依然として困難である。 本稿では,LLMにおけるICLの理解を高めるために,新しいマルチモーダルコントラスト学習フレームワークを提案する。 まず、実世界におけるICLの対照的な解釈を示し、ICLの差別化要因としてキー値表現の距離を示す。 第2に、実世界のデータセットに対するマルチモーダル入力フォーマットにおけるバイアスに対処する分析フレームワークを開発する。 ベースライン性能が貧弱なICL例を,不明瞭なフォーマットで表現しても有効性を示す。 最後に,ICL(Anchored-by-Text ICL)のオンザフライアプローチを提案する。 マルチモーダルデータセットに対する大規模な実験により、我々のアプローチは、課題やリソース制約のある環境など、様々なシナリオにおけるICLのパフォーマンスを著しく改善することが明らかとなった。 さらに、LLMにおける文脈内学習のメカニズムに関する貴重な洞察を提供する。 我々の発見は、より解釈可能で効率的で堅牢なマルチモーダルAIシステムの開発、特に課題やリソース制約のある環境において重要な意味を持つ。

The rapid growth of Large Language Models (LLMs) usage has highlighted the importance of gradient-free in-context learning (ICL). However, interpreting their inner workings remains challenging. This paper introduces a novel multimodal contrastive in-context learning framework to enhance our understanding of ICL in LLMs. First, we present a contrastive learning-based interpretation of ICL in real-world settings, marking the distance of the key-value representation as the differentiator in ICL. Second, we develop an analytical framework to address biases in multimodal input formatting for real-world datasets. We demonstrate the effectiveness of ICL examples where baseline performance is poor, even when they are represented in unseen formats. Lastly, we propose an on-the-fly approach for ICL (Anchored-by-Text ICL) that demonstrates effectiveness in detecting hateful memes, a task where typical ICL struggles due to resource limitations. Extensive experiments on multimodal datasets reveal that our approach significantly improves ICL performance across various scenarios, such as challenging tasks and resource-constrained environments. Moreover, it provides valuable insights into the mechanisms of in-context learning in LLMs. Our findings have important implications for developing more interpretable, efficient, and robust multimodal AI systems, especially in challenging tasks and resource-constrained environments.
翻訳日:2024-08-26 15:30:07 公開日:2024-08-23
# A CEOBによるコード効率最適化能力の測定

Measuring Code Efficiency Optimization Capabilities with ACEOB ( http://arxiv.org/abs/2408.12960v1 )

ライセンス: Link先を確認
Yue Pan, Xiuting Shao, Chen Lyu, (参考訳) ムーアの法則が向上するにつれて、ソフトウェアの性能と効率性はますます重要になっている。 プロのプログラマにとっても、コードの効率を最適化することは難しい。 しかし、関連する研究は比較的少ないままであり、コードの効率を最適化するモデルの能力を厳格に評価することは困難である。 この課題に対応するために、まずモデルトレーニングデータセットで「コードパターン」の詳細な分析を行い、人間の手書きコードを慎重に探索する。 次に、コード効率を最適化するタスクを定義し、コード効率最適化機能の評価を目的とした95,359組の効率非効率コードからなる自動コード効率最適化ベンチマーク(ACEOB)を導入する。 私たちの知る限り、ACEOBはPythonコードの効率最適化に特化した最初のデータセットです。 コード効率を最適化するモデルの能力を評価するために,Isomorphic Optimal Comparison CodeBLEU(IOCCB)メトリックと正規化性能指標(NPI)メトリックという2つの新しい指標を提案し,モデル生成コードの効率を評価する。 また、A CEOBで微調整した後、PolyCoderやCodeT5といった先進的なコードモデルを評価し、NPIフィルタを導入して、各モデルの効率が向上することを示した。 しかし,ChatGPTでもコード効率最適化タスクでは最適に動作しないことがわかった。

As Moore's Law gains diminish, software performance and efficiency become increasingly vital. Optimizing code efficiency is challenging, even for professional programmers. However, related research remains relatively scarce, and rigorously assessing models' abilities to optimize code efficiency is fraught with difficulties. In response to this challenge, we first conduct an in-depth analysis of "code patterns" in the model training dataset, meticulously exploring human-written code. Secondly, we define a task for optimizing code efficiency and introduce the Automatic Code Efficiency Optimization Benchmark (ACEOB), which consists of 95,359 pairs of efficient-inefficient code aimed at assessing code efficiency optimization capabilities. To our knowledge, ACEOB is the first dataset specifically targeting Python code efficiency optimization. To evaluate models' ability in optimizing code efficiency, we propose two new metrics: the Isomorphic Optimal Comparison CodeBLEU (IOCCB) metric and the Normalized Performance Index (NPI) metric, to assess the efficiency of model-generated code. We also evaluate several advanced code models, such as PolyCoder and CodeT5, after fine-tuning them on ACEOB and demonstrate that the efficiency of each model improves after introducing the NPI filter. However, it was observed that even ChatGPT does not perform optimally in code efficiency optimization tasks.
翻訳日:2024-08-26 15:30:07 公開日:2024-08-23
# シンプレクティックブレグマンの発散

Symplectic Bregman divergences ( http://arxiv.org/abs/2408.12961v1 )

ライセンス: Link先を確認
Frank Nielsen, (参考訳) シンプレクティック・ブレグマン発散と呼ばれるシンプレクティックベクトル空間におけるブレグマン発散の一般化を示す。 シンプレクティック・ブレグマンの発散は、シンプレクティック部分微分に依存するフェンシェル・ヤング不等式のシンプレクティック一般化に由来する。 一般的なシンプレクティック・フェンシェル・ヤング不等式は、線形シンプレクティック形式に関して定義されるシンプレクティック・フェンシェル変換を用いて得られる。 幾何力学、情報幾何学、機械学習における学習力学におけるシンプレクティックな発散の可能性について論じる。

We present a generalization of Bregman divergences in symplectic vector spaces called symplectic Bregman divergences. Symplectic Bregman divergences are derived from a symplectic generalization of the Fenchel-Young inequalities which rely on symplectic subdifferentials. The generic symplectic Fenchel-Young inequality is obtained using symplectic Fenchel transforms which are defined with respect to linear symplectic forms. Some potential appplications of symplectic divergences in geometric mechanics, information geometry, and learning dynamics in machine learning are discussed.
翻訳日:2024-08-26 15:30:07 公開日:2024-08-23
# リトアニア語のOpen Llama2モデル

Open Llama2 Model for the Lithuanian Language ( http://arxiv.org/abs/2408.12963v1 )

ライセンス: Link先を確認
Artūras Nakvosas, Povilas Daniušis, Vytas Mulevičius, (参考訳) 本稿では,リトアニア語に対する最初のオープンなLlama2大言語モデル (LLM) を提案する。 本稿では,オープン地域LSMの簡単なレビューと,提案するLSMとそのトレーニングプロセスの詳細情報について述べる。 また,提案するLLMの難易度と,他の開放LDMの難易度を比較検討した。 さらに、言語理解タスクに対するLLMのベンチマークでは、これらのベンチマークで効率的に機能するモデルを実現するためには、高品質な事前学習データセットが不可欠であることが示された。 記述されたLLMの完全な実現は、付随するオープンリポジトリ~\url{https://huggingface.co/neurotechnology}で利用可能である。

In this paper, we propose and describe the first open Llama2 large language models (LLMs) for the Lithuanian language, including an accompanying question/answer (Q/A) dataset and translations of popular LLM benchmarks. We provide a brief review of open regional LLMs and detailed information on the proposed LLMs and their training process. We also conduct an empirical evaluation, comparing the perplexities of the proposed LLMs with those of other modern open LLMs. In addition, benchmarking the proposed LLMs against language understanding tasks reveals that high-quality pretraining datasets may be essential for achieving models that perform efficiently on these benchmarks. The full realisations of the described LLMs are available in the accompanying open repository~\url{https://huggingface.co/neurotechnology}.
翻訳日:2024-08-26 15:30:07 公開日:2024-08-23
# 補助量子ビットを持たない二項符号上のシングルキュービット回転

Single-qubit rotations on a binomial code without ancillary qubits ( http://arxiv.org/abs/2408.12968v1 )

ライセンス: Link先を確認
Yuki Tanaka, Yuichiro Mori, Yuta Shingu, Aiko Yamaguchi, Tsuyoshi Yamamoto, Yuichiro Matsuzaki, (参考訳) ボソニック系を誤り訂正機能付き論理量子ビットとして利用する二項符号には大きな注意が払われている。 しかし、二項符号に単一量子ビットの回転演算を実装することは困難であり、従来のアプローチでは補助量子ビットを必要としていた。 本稿では,二項符号上で論理的量子ビット回転を行う方法を提案する。 具体的には、非線形な共振器に2周波パラメトリック駆動を同時に適用することにより、$X$軸回転を実現する方法について説明する。 さらに,デチューニングにより,$Z$軸回転が実現可能であることを示す。 論理量子ビット回転に対する補助量子ビットの必要性の低減により,提案手法は,量子ビット数に制限があるNISQ時代の量子計算に有利である。

Great attention has been paid to binomial codes utilizing bosonic systems as logical qubits with error correction capabilities. However, implementing single-qubit rotation operations on binomial codes has proven challenging, requiring an ancillary qubit in previous approaches. Here, we propose a method for performing logical qubit rotation on binomial codes without requiring an ancillary qubit. Specifically, we explain how to implement $X$-axis rotations by simultaneously applying two-frequency parametric drives to resonators with nonlinearity. Furthermore, we show that $Z$-axis rotations could be realized with the detuning. Due to the reduction of the need for the ancillary qubit for the logical qubit rotation, our proposed approach is advantageous for quantum computation in the NISQ era, where the number of qubits is limited.
翻訳日:2024-08-26 15:30:07 公開日:2024-08-23
# SUMO:モデルに基づくオフライン強化学習のための探索に基づく不確実性推定

SUMO: Search-Based Uncertainty Estimation for Model-Based Offline Reinforcement Learning ( http://arxiv.org/abs/2408.12970v1 )

ライセンス: Link先を確認
Zhongjian Qiao, Jiafei Lyu, Kechen Jiao, Qi Liu, Xiu Li, (参考訳) オフライン強化学習(RL)の性能は、静的データセットのサイズと品質に制限がある。 モデルベースのオフラインRLは、全体的なパフォーマンスを高めるために、動的モデルを通じて合成サンプルを生成することでこの問題に対処する。 生成したサンプルの信頼性を評価するために,不確実性推定法がよく用いられる。 しかし、最もよく使われる不確実性推定法であるモデルアンサンブルは必ずしも最良の選択ではない。 本稿では,代案として, \textbf{S}earch-based \textbf{U}ncertainty Estimation method for \textbf{M}odel-based \textbf{O}ffline RL (SUMO)を提案する。 SUMOは, 分布内データセットに対するクロスエントロピーを測定することで, 合成試料の不確かさを特徴づけ, 効率的な探索法を用いて実装する。 このようにして、SUMOは信頼できる不確実性推定を達成できる。 我々は SUMO を MOPO や Adapted MOReL (AMOReL) などのモデルベースオフライン RL アルゴリズムに統合し,その理論的解析を行う。 D4RLデータセットの大規模な実験結果から、SUMOはより正確な不確実性推定を提供し、ベースアルゴリズムの性能を高めることができることが示された。 これらの結果から,SUMOは報酬ペナルティやトラジェクティブ・トランケーションに使用する場合,モデルベースオフラインRLに対してより良い不確実性推定器となる可能性が示唆された。 私たちのコードは利用可能で、さらなる研究と開発のためにオープンソースになります。

The performance of offline reinforcement learning (RL) suffers from the limited size and quality of static datasets. Model-based offline RL addresses this issue by generating synthetic samples through a dynamics model to enhance overall performance. To evaluate the reliability of the generated samples, uncertainty estimation methods are often employed. However, model ensemble, the most commonly used uncertainty estimation method, is not always the best choice. In this paper, we propose a \textbf{S}earch-based \textbf{U}ncertainty estimation method for \textbf{M}odel-based \textbf{O}ffline RL (SUMO) as an alternative. SUMO characterizes the uncertainty of synthetic samples by measuring their cross entropy against the in-distribution dataset samples, and uses an efficient search-based method for implementation. In this way, SUMO can achieve trustworthy uncertainty estimation. We integrate SUMO into several model-based offline RL algorithms including MOPO and Adapted MOReL (AMOReL), and provide theoretical analysis for them. Extensive experimental results on D4RL datasets demonstrate that SUMO can provide more accurate uncertainty estimation and boost the performance of base algorithms. These indicate that SUMO could be a better uncertainty estimator for model-based offline RL when used in either reward penalty or trajectory truncation. Our code is available and will be open-source for further research and development.
翻訳日:2024-08-26 15:30:07 公開日:2024-08-23
# 結合量子発振器における誘引的・反発的相互作用

Attractive-repulsive interaction in coupled quantum oscillators ( http://arxiv.org/abs/2408.12972v1 )

ライセンス: Link先を確認
Bulti Paul, Biswabibek Bandyopadhyay, Tanmoy Banerjee, (参考訳) 本研究では,結合経路におけるアトラクションと反発の同時発生によって引き起こされる量子自己持続振動子の創発的ダイナミクスについて検討する。 我々は、魅力-反発結合の下で量子スチュアート-ランダウ振動子を考察し、リンドブラッド形式で対応する量子マスター方程式を構築する。 我々は、量子極限周期の振動から量子不均一な定常状態への興味深い対称性破り遷移を発見し、この遷移は、以前に知られていた量子不均一から不均一な定常状態への対称性破れ遷移とは反対である。 この結果は弱い量子状態における量子系のノイズの多い古典的モデルの解析によって支持される。 注目すべきは、古典的領域に類推を持たない対称性を破る遷移に関連した絡み合いの発生である。 この研究は、量子領域における結合振動子によって示される集合的挙動の理解を深める。

We study the emergent dynamics of quantum self-sustained oscillators induced by the simultaneous presence of attraction and repulsion in the coupling path. We consider quantum Stuart-Landau oscillators under attractive-repulsive coupling and construct the corresponding quantum master equation in the Lindblad form. We discover an interesting symmetry-breaking transition from quantum limit cycle oscillation to quantum inhomogeneous steady state; This transition is contrary to the previously known symmetry-breaking transition from quantum homogeneous to inhomogeneous steady state. The result is supported by the analysis on the noisy classical model of the quantum system in the weak quantum regime. Remarkably, we find the generation of entanglement associated with the symmetry-breaking transition that has no analogue in the classical domain. This study will enrich our understanding of the collective behaviors shown by coupled oscillators in the quantum domain.
翻訳日:2024-08-26 15:30:07 公開日:2024-08-23
# フィードバック前駆体を用いた細胞画像分割の精度向上

Accuracy Improvement of Cell Image Segmentation Using Feedback Former ( http://arxiv.org/abs/2408.12974v1 )

ライセンス: Link先を確認
Hinako Mitsuoka, Kazuhiro Hotta, (参考訳) 深層学習による顕微鏡細胞画像のセマンティックセグメンテーションは重要な技術である。 画像認識において最近CNNよりも優れていたトランスフォーマーも,セル画像のセグメンテーションのために改良・開発できると考えられた。 トランスフォーマーは、詳細な情報よりも文脈情報に焦点を当てる傾向がある。 この傾向は、セグメンテーションのための詳細な情報の欠如につながる。 そこで, 欠損した詳細情報を補足したり補強したりするために, ヒト視覚野のフィードバック処理が有効であると考えられた。 提案手法は,トランスフォーマーをエンコーダとして使用し,フィードバック処理機構を備えた,セマンティックセマンティックセマンティクスのための新しいアーキテクチャである。 詳細な情報を持つ特徴マップは、モデルの出力付近から下位層にフィードバックされ、トランスフォーマーの弱点である詳細情報の欠如を補い、セグメンテーション精度を向上させる。 3つのセル画像データセットの実験により,本手法はフィードバックのない手法を超越し,セル画像のセグメンテーションにおける精度が向上することが確認された。 提案手法は,従来のフィードバック手法よりも計算コストを低減しつつ,高いセグメンテーション精度を実現した。 さらに,トランスフォーマーエンコーダのモデルサイズを単純に増やさずに精度が向上し,計算コストの低減を図った。

Semantic segmentation of microscopy cell images by deep learning is a significant technique. We considered that the Transformers, which have recently outperformed CNNs in image recognition, could also be improved and developed for cell image segmentation. Transformers tend to focus more on contextual information than on detailed information. This tendency leads to a lack of detailed information for segmentation. Therefore, to supplement or reinforce the missing detailed information, we hypothesized that feedback processing in the human visual cortex should be effective. Our proposed Feedback Former is a novel architecture for semantic segmentation, in which Transformers is used as an encoder and has a feedback processing mechanism. Feature maps with detailed information are fed back to the lower layers from near the output of the model to compensate for the lack of detailed information which is the weakness of Transformers and improve the segmentation accuracy. By experiments on three cell image datasets, we confirmed that our method surpasses methods without feedback, demonstrating its superior accuracy in cell image segmentation. Our method achieved higher segmentation accuracy while consuming less computational cost than conventional feedback approaches. Moreover, our method offered superior precision without simply increasing the model size of Transformer encoder, demonstrating higher accuracy with lower computational cost.
翻訳日:2024-08-26 15:30:07 公開日:2024-08-23
# イベントセンサの最適オンザフライフィードバック制御

Optimal OnTheFly Feedback Control of Event Sensors ( http://arxiv.org/abs/2408.12976v1 )

ライセンス: Link先を確認
Valery Vishnevskiy, Greg Burman, Sebastian Kozerke, Diederik Paul Moeys, (参考訳) イベントベースの視覚センサは、画素強度の変動が予め定義された閾値を超えるとトリガされるイベントの非同期ストリームを生成する。 このようなセンサーは、データ冗長性の低減、マイクロ秒の時間分解能、低消費電力などの大きな利点をもたらし、ロボット工学やコンピュータビジョンの応用に有用である。 本研究では,イベントからの映像再構成の問題点を考察し,コントローラネットワークが過去のイベントを分析し,次の時間セグメントにおけるアクティベーションしきい値の最適分布を予測することによって,アクティベーションしきい値の動的フィードバック制御を行うアプローチを提案する。 さらに、制御ネットワークが条件付きで最適化されたユーザ定義の目標ピークイベントレートを許容し、列ごとのアクティベーション閾値を予測し、最終的には最高のビデオ再構成を可能にする。 提案するOnTheFly制御方式は,離散イベント表現の確率的緩和を用いて,エンドツーエンドでデータ駆動と訓練を行う。 提案手法は,LPIPSの知覚的イメージの相違度指標で6~12%,イベントレートで49%,精度とイベントレートとの微調整のバランスを保ちつつ,再現性の向上を実現している。 さらに,OnTheFly制御によって提供されるサンプリング戦略が解釈可能であり,シーンの特性を反映していることを示す。 本研究は, 物理精度シミュレータをベースとして, 画像再構成などの下流タスクにおけるイベントカメラの実用性を向上し, シリコンにおける動的フィードバックESV制御のハードウェア実装への道を開くことを目的とした。

Event-based vision sensors produce an asynchronous stream of events which are triggered when the pixel intensity variation exceeds a predefined threshold. Such sensors offer significant advantages, including reduced data redundancy, micro-second temporal resolution, and low power consumption, making them valuable for applications in robotics and computer vision. In this work, we consider the problem of video reconstruction from events, and propose an approach for dynamic feedback control of activation thresholds, in which a controller network analyzes the past emitted events and predicts the optimal distribution of activation thresholds for the following time segment. Additionally, we allow a user-defined target peak-event-rate for which the control network is conditioned and optimized to predict per-column activation thresholds that would eventually produce the best possible video reconstruction. The proposed OnTheFly control scheme is data-driven and trained in an end-to-end fashion using probabilistic relaxation of the discrete event representation. We demonstrate that our approach outperforms both fixed and randomly-varying threshold schemes by 6-12% in terms of LPIPS perceptual image dissimilarity metric, and by 49% in terms of event rate, achieving superior reconstruction quality while enabling a fine-tuned balance between performance accuracy and the event rate. Additionally, we show that sampling strategies provided by our OnTheFly control are interpretable and reflect the characteristics of the scene. Our results, derived from a physically-accurate simulator, underline the promise of the proposed methodology in enhancing the utility of event cameras for image reconstruction and other downstream tasks, paving the way for hardware implementation of dynamic feedback EVS control in silicon.
翻訳日:2024-08-26 15:20:16 公開日:2024-08-23
# 埋め込みGPUにおけるジェスチャ認識のためのエネルギー効率の良いスパイクリカレントニューラルネットワーク

Energy-Efficient Spiking Recurrent Neural Network for Gesture Recognition on Embedded GPUs ( http://arxiv.org/abs/2408.12978v1 )

ライセンス: Link先を確認
Marzieh Hassanshahi Varposhti, Mahyar Shahsavari, Marcel van Gerven, (参考訳) イベントベースの組み込みデバイスにAIアルゴリズムを実装することで、データのリアルタイム処理を可能にし、レイテンシを最小化し、エッジコンピューティングにおける電力効率を向上させる。 本研究では,スピーキングリカレントニューラルネットワーク(SRNN)と液体時間定数ニューロンを併用したジェスチャー認識システムについて検討した。 我々はNVIDIA Jetson Nano組み込みGPUプラットフォームにおけるエネルギー効率と計算効率に着目した。 組み込みGPUは、従来のGPUと比較して14倍の電力効率向上を示しており、エネルギー制約のあるアプリケーションでの使用に対する説得力のある議論となっている。 この研究の実証的な結果は、バッチ処理がベースラインよりもはるかに高い精度を維持しながら、さまざまなバッチサイズにわたるフレームレートを著しく向上させることも示している。 これらの知見は、時空間データをジェスチャー認識で解釈するための頑健なモデルとして、SRNNと液時定数ニューロンを検証し、処理速度と電力フグ性の間に重要なバランスをとげる。

Implementing AI algorithms on event-based embedded devices enables real-time processing of data, minimizes latency, and enhances power efficiency in edge computing. This research explores the deployment of a spiking recurrent neural network (SRNN) with liquid time constant neurons for gesture recognition. We focus on the energy efficiency and computational efficacy of NVIDIA Jetson Nano embedded GPU platforms. The embedded GPU showcases a 14-fold increase in power efficiency relative to a conventional GPU, making a compelling argument for its use in energy-constrained applications. The study's empirical findings also highlight that batch processing significantly boosts frame rates across various batch sizes while maintaining accuracy levels well above the baseline. These insights validate the SRNN with liquid time constant neurons as a robust model for interpreting temporal-spatial data in gesture recognition, striking a critical balance between processing speed and power frugality.
翻訳日:2024-08-26 15:20:16 公開日:2024-08-23
# 知識集約型質問応答のための内部的および外部的知識対話型リファインメントフレームワーク

Internal and External Knowledge Interactive Refinement Framework for Knowledge-Intensive Question Answering ( http://arxiv.org/abs/2408.12979v1 )

ライセンス: Link先を確認
Haowei Du, Dongyan Zhao, (参考訳) 最近の研究は、LLM生成コンテンツの限界や潜在的な事実エラーに対処するために、外部知識をLCMに統合しようと試みている。 しかし、大量の外部知識から正しい知識を回収する方法は困難である。 この目的のために, LLM がすでに事前学習したパラメータの豊富な知識を符号化しており, 内部知識を利用することで, 知識集約タスクに適用する際の外部知識の検索が向上していることを実証的に観察した。 本稿では,IEKRと呼ばれる新たな内的・外的知識対話的改良パラダイムを提案し,LLMの内部知識を活用して,外部知識ベースから関連知識を検索し,外部知識を活用して生成した内的知識の幻覚を洗練させる。 LLM に “Tell me something about” のようなプロンプトを追加するだけで、関連する明示的な知識をレビューして、クエリに挿入して外部検索します。 外部知識は、内部知識を補うために利用され、答えの LLM の入力に使用される。 我々は,LLMとドメインの異なる知識集約型質問応答タスクにおいて,3つのベンチマークデータセットを用いて実験を行い,新しい最先端技術を実現する。 さらなる分析は、我々のアプローチにおける異なるモジュールの有効性を示している。

Recent works have attempted to integrate external knowledge into LLMs to address the limitations and potential factual errors in LLM-generated content. However, how to retrieve the correct knowledge from the large amount of external knowledge imposes a challenge. To this end, we empirically observe that LLMs have already encoded rich knowledge in their pretrained parameters and utilizing these internal knowledge improves the retrieval of external knowledge when applying them to knowledge-intensive tasks. In this paper, we propose a new internal and external knowledge interactive refinement paradigm dubbed IEKR to utilize internal knowledge in LLM to help retrieve relevant knowledge from the external knowledge base, as well as exploit the external knowledge to refine the hallucination of generated internal knowledge. By simply adding a prompt like 'Tell me something about' to the LLMs, we try to review related explicit knowledge and insert them with the query into the retriever for external retrieval. The external knowledge is utilized to complement the internal knowledge into input of LLM for answers. We conduct experiments on 3 benchmark datasets in knowledge-intensive question answering task with different LLMs and domains, achieving the new state-of-the-art. Further analysis shows the effectiveness of different modules in our approach.
翻訳日:2024-08-26 15:20:16 公開日:2024-08-23
# MedDec: 放電サプライヤーから医療判断を抽出するためのデータセット

MedDec: A Dataset for Extracting Medical Decisions from Discharge Summaries ( http://arxiv.org/abs/2408.12980v1 )

ライセンス: Link先を確認
Mohamed Elgaar, Jiali Cheng, Nidhi Vakil, Hadi Amiri, Leo Anthony Celi, (参考訳) 医療決定は個人の健康と幸福に直接影響を及ぼす。 臨床ノートから意思決定を抽出することは、医学的意思決定プロセスを理解する上で重要な役割を担っている。 本稿では,10種類の医学的判断を付加した11種類の表現型(障害)の臨床ノートを含む「MedDec」という新しいデータセットを開発する。 本稿では,医学的意思決定を共同で抽出・分類することを目的とした,医学的意思決定の課題について紹介する。 このタスクのベースラインとしてスパン検出モデルを開発し、最近のスパン検出アプローチを評価し、データサンプルの複雑さを測定するためにいくつかの指標を用いる。 臨床的な意思決定に固有の複雑さに光を当て,この領域における今後の研究を可能にした。 データセットとコードはhttps://github.com/CLU-UML/MedDec.comから入手できる。

Medical decisions directly impact individuals' health and well-being. Extracting decision spans from clinical notes plays a crucial role in understanding medical decision-making processes. In this paper, we develop a new dataset called "MedDec", which contains clinical notes of eleven different phenotypes (diseases) annotated by ten types of medical decisions. We introduce the task of medical decision extraction, aiming to jointly extract and classify different types of medical decisions within clinical notes. We provide a comprehensive analysis of the dataset, develop a span detection model as a baseline for this task, evaluate recent span detection approaches, and employ a few metrics to measure the complexity of data samples. Our findings shed light on the complexities inherent in clinical decision extraction and enable future work in this area of research. The dataset and code are available through https://github.com/CLU-UML/MedDec.
翻訳日:2024-08-26 15:20:16 公開日:2024-08-23
# QD-VMR: ビデオモーメント検索のためのコンテキスト理解強化によるクエリのデバイアス

QD-VMR: Query Debiasing with Contextual Understanding Enhancement for Video Moment Retrieval ( http://arxiv.org/abs/2408.12981v1 )

ライセンス: Link先を確認
Chenghua Gao, Min Li, Jianshuo Liu, Junxing Ren, Lin Chen, Haoyu Liu, Bo Meng, Jitao Fu, Wenwen Su, (参考訳) Video Moment Retrieval (VMR) は、クエリに対応する未トリミングビデオの関連モーメントを検索することを目的としている。 クロスモーダルなインタラクションアプローチは、ビデオ内のクエリ非関連情報をフィルタリングする進歩を示しているが、クエリセマンティクスと対応するビデオモーメントの正確な一致を仮定し、自然言語セマンティクスの誤解を見落としている可能性がある。 この課題に対処するために,拡張文脈理解を伴うクエリデバイアスモデルである‘textit{QD-VMR}’を提案する。 まず、ビデオクリップとクエリ機能によるGlobal partial Alignerモジュールのアライメントとビデオクエリのコントラスト学習を利用して、モデルのクロスモーダル理解能力を向上する。 その後、デバイアスドクエリ機能を効率的に取得するためにQuery Debiasing Moduleを使用し、クエリに関連するビデオ機能を改善するためにVisual Enhancement Moduleを使用します。 最後に,DeTR構造を用いて,対象映像の予測を行う。 3つのベンチマークデータセットの広範な評価を通じて、QD-VMRは最先端のパフォーマンスを実現し、VMRの精度を向上させる可能性を証明している。 さらに解析実験を行い,提案モジュールの有効性を実証した。 私たちのコードは将来の研究を促進するためにリリースされます。

Video Moment Retrieval (VMR) aims to retrieve relevant moments of an untrimmed video corresponding to the query. While cross-modal interaction approaches have shown progress in filtering out query-irrelevant information in videos, they assume the precise alignment between the query semantics and the corresponding video moments, potentially overlooking the misunderstanding of the natural language semantics. To address this challenge, we propose a novel model called \textit{QD-VMR}, a query debiasing model with enhanced contextual understanding. Firstly, we leverage a Global Partial Aligner module via video clip and query features alignment and video-query contrastive learning to enhance the cross-modal understanding capabilities of the model. Subsequently, we employ a Query Debiasing Module to obtain debiased query features efficiently, and a Visual Enhancement module to refine the video features related to the query. Finally, we adopt the DETR structure to predict the possible target video moments. Through extensive evaluations of three benchmark datasets, QD-VMR achieves state-of-the-art performance, proving its potential to improve the accuracy of VMR. Further analytical experiments demonstrate the effectiveness of our proposed module. Our code will be released to facilitate future research.
翻訳日:2024-08-26 15:20:16 公開日:2024-08-23
# Zeoformer: OSDA-Zeolite親和性予測のための粗粒周期グラフ変換器

Zeoformer: Coarse-Grained Periodic Graph Transformer for OSDA-Zeolite Affinity Prediction ( http://arxiv.org/abs/2408.12984v1 )

ライセンス: Link先を確認
Xiangxiang Shen, Zheng Wan, Lingfeng Wen, Licheng Sun, Ou Yang Ming Jie, Xuan Tang, Xian Zeng, Mingsong Chen, Xiao He, Xian Wei, (参考訳) 国際ゼオライト協会構造委員会(IZA-SC)はこれまでに255の異なるゼオライト構造をカタログ化しており、数百万もの理論上可能な構造がまだ発見されていない。 特定のゼオライトの合成は、主にOSDAとゼオライトの親和性によって決定されるため、有機構造誘導剤(OSDA)の使用を必要とする。 したがって、最も親和性が高いOSDA-ゼオライトペアが標的ゼオライトの合成の鍵となる。 しかし、OSDA-ゼオライト対はしばしば複雑な幾何学構造、すなわち多数の原子によって形成される複雑な結晶構造を示す。 既存の機械学習手法では結晶の周期性を表現できるが、局所的な可変性を持つ結晶構造を正確に表現することはできない。 この問題に対処するため,Zeoformerという,粗粒度結晶周期性と粒度局所変動性を効果的に表現する手法を提案する。 ゼオフォーマーは各原子を中心に単位細胞を再構成し、この中心原子と他の原子との対距離を再構成された単位細胞内に符号化する。 再構成ユニットセル内の対距離の導入は、ユニットセルの全体構造と異なるユニットセルの違いをより効果的に表現し、OSDA-ゼオライト対と一般的な結晶構造の性質をより正確に効率的に予測することができる。 総合評価により,OSDA-ゼオライトペアデータセットと2種類の結晶材料データセットで最高の性能を示す。

To date, the International Zeolite Association Structure Commission (IZA-SC) has cataloged merely 255 distinct zeolite structures, with millions of theoretically possible structures yet to be discovered. The synthesis of a specific zeolite typically necessitates the use of an organic structure-directing agent (OSDA), since the selectivity for a particular zeolite is largely determined by the affinity between the OSDA and the zeolite. Therefore, finding the best affinity OSDA-zeolite pair is the key to the synthesis of targeted zeolite. However, OSDA-zeolite pairs frequently exhibit complex geometric structures, i.e., a complex crystal structure formed by a large number of atoms. Although some existing machine learning methods can represent the periodicity of crystals, they cannot accurately represent crystal structures with local variability. To address this issue, we propose a novel approach called Zeoformer, which can effectively represent coarse-grained crystal periodicity and fine-grained local variability. Zeoformer reconstructs the unit cell centered around each atom and encodes the pairwise distances between this central atom and other atoms within the reconstructed unit cell. The introduction of pairwise distances within the reconstructed unit cell more effectively represents the overall structure of the unit cell and the differences between different unit cells, enabling the model to more accurately and efficiently predict the properties of OSDA-zeolite pairs and general crystal structures. Through comprehensive evaluation, our Zeoformer model demonstrates the best performance on OSDA-zeolite pair datasets and two types of crystal material datasets.
翻訳日:2024-08-26 15:20:16 公開日:2024-08-23
# Wrong Examのトップスコア:脆弱性検出のための機械学習のベンチマークについて

Top Score on the Wrong Exam: On Benchmarking in Machine Learning for Vulnerability Detection ( http://arxiv.org/abs/2408.12986v1 )

ライセンス: Link先を確認
Niklas Risse, Marcel Böhme, (参考訳) トップソフトウェアエンジニアリングカンファレンスで発表された機械学習による脆弱性検出(ML4VD)の文献の調査によると、過去5年間のすべての論文は、ML4VDをバイナリ分類の問題として定義している。 本稿では,ML4VDデータセットの脆弱性機能と非脆弱性機能の両方について検討する。 実際のセキュリティ欠陥のパッチに関係していた場合、関数は脆弱性であり、脆弱性の原因であることが確認される。 それ以外の場合は無効である。 ほとんどすべてのケースにおいて、この決定は、それ以上の文脈なしでは行われない。 Vulnerable関数は、対応する脆弱性を誘発するコールコンテキストが存在するためのみ脆弱性がある場合が多いが、非脆弱性関数は、対応するコンテキストが存在する場合に脆弱性がある場合が多い。 しかし、なぜML4VD技術は、これらのサンプルに十分な情報がないにもかかわらず、そんなにうまく機能するのか? Spurious correlations: 単語数しか得られなくても高い精度が達成できることがわかった。 これは、これらのデータセットが、セキュリティ上の脆弱性を実際に検出することなく、高い精度を達成するために利用されることを示している。 ML4VDの現在の問題ステートメントは未定義であり、この成長する作業体の内部的妥当性に疑問を呈する。 構成的には、ML4VDの真の能力を評価し、代替問題ステートメントを提案し、機械学習とプログラミング分析研究の幅広い影響を検討するために、より効果的なベンチマーク手法を求める。

According to our survey of the machine learning for vulnerability detection (ML4VD) literature published in the top Software Engineering conferences, every paper in the past 5 years defines ML4VD as a binary classification problem: Given a function, does it contain a security flaw? In this paper, we ask whether this decision can really be made without further context and study both vulnerable and non-vulnerable functions in the most popular ML4VD datasets. A function is vulnerable if it was involved in a patch of an actual security flaw and confirmed to cause the vulnerability. It is non-vulnerable otherwise. We find that in almost all cases this decision cannot be made without further context. Vulnerable functions are often vulnerable only because a corresponding vulnerability-inducing calling context exists while non-vulnerable functions would often be vulnerable if a corresponding context existed. But why do ML4VD techniques perform so well even though there is demonstrably not enough information in these samples? Spurious correlations: We find that high accuracy can be achieved even when only word counts are available. This shows that these datasets can be exploited to achieve high accuracy without actually detecting any security vulnerabilities. We conclude that the current problem statement of ML4VD is ill-defined and call into question the internal validity of this growing body of work. Constructively, we call for more effective benchmarking methodologies to evaluate the true capabilities of ML4VD, propose alternative problem statements, and examine broader implications for the evaluation of machine learning and programming analysis research.
翻訳日:2024-08-26 15:20:16 公開日:2024-08-23
# RIFF:決定木からのフラッド検出ルールの導入

RIFF: Inducing Rules for Fraud Detection from Decision Trees ( http://arxiv.org/abs/2408.12989v1 )

ライセンス: Link先を確認
João Lucas Martins, João Bravo, Ana Sofia Gomes, Carlos Soares, Pedro Bizarro, (参考訳) 金融詐欺は年間数十億ドルの損失の原因である。 伝統的に、不正検出システムは、その透明性と解釈可能性のためにルールに依存している。 しかし、ルールシステムでは、ルール帰納アルゴリズムがデータから直接ルールを推測することによって緩和しようとする問題である、ドメインの専門家からのかなりの入力を作成およびチューニングするために必要である。 本稿では,これらのアルゴリズムの不正検出への応用について検討し,決定木から直接設定された低FPRルールを蒸留するルール誘導アルゴリズムであるRIFFを提案する。 実験の結果,提案手法は,FPRタスクの少ない作業において,元のモデルの性能を維持・改善すると同時に,その複雑さを著しく低減し,専門家が手作業で調整したルールよりも優れることがわかった。

Financial fraud is the cause of multi-billion dollar losses annually. Traditionally, fraud detection systems rely on rules due to their transparency and interpretability, key features in domains where decisions need to be explained. However, rule systems require significant input from domain experts to create and tune, an issue that rule induction algorithms attempt to mitigate by inferring rules directly from data. We explore the application of these algorithms to fraud detection, where rule systems are constrained to have a low false positive rate (FPR) or alert rate, by proposing RIFF, a rule induction algorithm that distills a low FPR rule set directly from decision trees. Our experiments show that the induced rules are often able to maintain or improve performance of the original models for low FPR tasks, while substantially reducing their complexity and outperforming rules hand-tuned by experts.
翻訳日:2024-08-26 15:20:16 公開日:2024-08-23
# 眠気検知に関する調査-最近の応用と方法

A Survey on Drowsiness Detection -- Modern Applications and Methods ( http://arxiv.org/abs/2408.12990v1 )

ライセンス: Link先を確認
Biying Fu, Fadi Boutros, Chin-Teng Lin, Naser Damer, (参考訳) 眠気検知は、職場や車輪の後ろでの安全確保、生産性の向上、さまざまな領域での医療において最重要となる。 したがって、事故の防止、安全性の向上、そして最終的には様々な分野やシナリオにおける命を救うために、正確でリアルタイムな眠気検知が重要な役割を担っている。 本総説では,運転者の眠気検出のみに焦点をあて,様々な分野での眠気検出の重要性を概観する。 我々は、公共交通機関、医療、職場の安全など、さまざまな状況を考慮して、生活習慣検出スキームにおける現在の方法論、課題、技術進歩を探求する。 眠気の多面的影響を調べることにより、この研究は、その影響の包括的理解と、安全性と性能を高めるための正確かつリアルタイム検出技術の重要性に寄与する。 我々は、現在のアルゴリズムの弱点と、精度とリアルタイム検出、安定したデータ伝送、バイアスのないシステムの構築といった既存の研究の限界を特定した。 我々の調査は既存の作業の枠組みを定めており、合成データを用いてバイアス問題を軽減し、モデル圧縮によるハードウェア制限を克服し、モデル性能を高めるために融合を活用するなど、実践的なレコメンデーションをもたらしている。 これは、一つの側面にのみ焦点をあてるのではなく、完全に、眠気検出のトピックを調査する先駆的な作業である。 我々は、眠気検出のトピックを動的かつ進化的な分野とみなし、さらなる探索の機会を多く提示する。

Drowsiness detection holds paramount importance in ensuring safety in workplaces or behind the wheel, enhancing productivity, and healthcare across diverse domains. Therefore accurate and real-time drowsiness detection plays a critical role in preventing accidents, enhancing safety, and ultimately saving lives across various sectors and scenarios. This comprehensive review explores the significance of drowsiness detection in various areas of application, transcending the conventional focus solely on driver drowsiness detection. We delve into the current methodologies, challenges, and technological advancements in drowsiness detection schemes, considering diverse contexts such as public transportation, healthcare, workplace safety, and beyond. By examining the multifaceted implications of drowsiness, this work contributes to a holistic understanding of its impact and the crucial role of accurate and real-time detection techniques in enhancing safety and performance. We identified weaknesses in current algorithms and limitations in existing research such as accurate and real-time detection, stable data transmission, and building bias-free systems. Our survey frames existing works and leads to practical recommendations like mitigating the bias issue by using synthetic data, overcoming the hardware limitations with model compression, and leveraging fusion to boost model performance. This is a pioneering work to survey the topic of drowsiness detection in such an entirely and not only focusing on one single aspect. We consider the topic of drowsiness detection as a dynamic and evolving field, presenting numerous opportunities for further exploration.
翻訳日:2024-08-26 15:20:16 公開日:2024-08-23
# 概念マップと応答ディスタングルによる知識トラクションの強化

Enhancing Knowledge Tracing with Concept Map and Response Disentanglement ( http://arxiv.org/abs/2408.12996v1 )

ライセンス: Link先を確認
Soonwook Park, Donghoon Lee, Hogun Park, (参考訳) 教育技術の急速に進歩する分野では、学生の知識状態を正確に追跡し理解することが重要である。 従来の知識追跡(KT)モデルは、主に質問に対するバイナリ応答(正解と誤答)に焦点を当てている。 残念なことに、特にMCQ(Multiple Choice Questions)では、学生の実際の回答選択に欠かせない情報を見落としており、学習者の誤解や知識のギャップを明らかにするのに役立つ。 これらの課題に対処するために,概念地図駆動型応答不整合法を提案し,知識追跡(CRKT)モデルを強化する。 CRKTは、答えの選択を直接活用することでKTに恩恵を与える。 さらに,不整合表現を用いて,学生が選択しない選択肢から洞察を得るアンチョセン応答の新規利用について紹介する。 さらに、CRKTは、概念レベルで学生の知識状態を追跡し、概念マップを符号化し、それら間の関係を表現し、目に見えない概念をより正確に予測する。 このアプローチは、実用的なフィードバックを提供し、学習経験を改善することが期待されている。 複数のデータセットにわたる包括的な実験は、CRKTの有効性を示し、最先端モデルよりも予測精度と解釈可能性において優れた性能を実現する。

In the rapidly advancing realm of educational technology, it becomes critical to accurately trace and understand student knowledge states. Conventional Knowledge Tracing (KT) models have mainly focused on binary responses (i.e., correct and incorrect answers) to questions. Unfortunately, they largely overlook the essential information in students' actual answer choices, particularly for Multiple Choice Questions (MCQs), which could help reveal each learner's misconceptions or knowledge gaps. To tackle these challenges, we propose the Concept map-driven Response disentanglement method for enhancing Knowledge Tracing (CRKT) model. CRKT benefits KT by directly leveraging answer choices--beyond merely identifying correct or incorrect answers--to distinguish responses with different incorrect choices. We further introduce the novel use of unchosen responses by employing disentangled representations to get insights from options not selected by students. Additionally, CRKT tracks the student's knowledge state at the concept level and encodes the concept map, representing the relationships between them, to better predict unseen concepts. This approach is expected to provide actionable feedback, improving the learning experience. Our comprehensive experiments across multiple datasets demonstrate CRKT's effectiveness, achieving superior performance in prediction accuracy and interpretability over state-of-the-art models.
翻訳日:2024-08-26 15:20:16 公開日:2024-08-23
# CRUXEval-X:多言語コードの推論、理解、実行のためのベンチマーク

CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution ( http://arxiv.org/abs/2408.13001v1 )

ライセンス: Link先を確認
Ruiyang Xu, Jialun Cao, Yaojie Lu, Hongyu Lin, Xianpei Han, Ben He, Shing-Chi Cheung, Le Sun, (参考訳) HumanEvalのようなコードベンチマークは、Large Language Models(LLM)のコーディング能力を評価するために広く採用されている。 しかし、既存のコードベンチマークには無視できないプログラミング言語バイアスがあり、95%以上のコード生成ベンチマークがPythonによって支配されており、JavaやC/C++のような他のプログラミング言語におけるLLMの能力は未知である。 さらに、コーディングタスクのバイアスも重要です。 ほとんどのベンチマークはコード生成能力に重点を置いているが、コード推論(入力、推論出力、与えられた出力、推論入力)のベンチマークは必須のコーディング能力に不足している。 しかし、多言語ベンチマークの構築は高価で労働集約的であり、Leetcodeのような競合するウェブサイトのコードは、トレーニング中にデータ汚染に悩まされている。 このギャップを埋めるために、19のプログラミング言語を含む多言語コード推論ベンチマークであるCRUXEVAL-Xを提案する。 各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。 特に、CRUXEVAL-Xの構築パイプラインは、完全に自動化され、テスト誘導された方法で動作し、実行フィードバックに基づいて反復的に生成し、修復する。 また、言語間の障壁(Python/C++の動的/静的型システムなど)に対して、言語ペア間のさまざまな遷移ルールを定式化し、翻訳を容易にする。 言語ペア間の相関関係を明らかにするため,24個の LLM の集中評価を行った。 例えば、TypeScriptとJavaScriptには大きな正の相関関係があるが、Racketは他の言語との相関関係は少ない。 さらに興味深いことに、Pythonでのみ訓練されたモデルでさえ、他の言語で34.4%のPass@1を達成することができ、LLMの言語間一般化が明らかになった。

Code benchmarks such as HumanEval are widely adopted to evaluate Large Language Models' (LLMs) coding capabilities. However, there is an unignorable programming language bias in existing code benchmarks -- over 95% code generation benchmarks are dominated by Python, leaving the LLMs' capabilities in other programming languages such as Java and C/C++ unknown. Moreover, coding task bias is also crucial. Most benchmarks focus on code generation capability, while benchmarks for code reasoning (given input, reasoning output; and given output, reasoning input), an essential coding capability, are insufficient. Yet, constructing multi-lingual benchmarks can be expensive and labor-intensive, and codes in contest websites such as Leetcode suffer from data contamination during training. To fill this gap, we propose CRUXEVAL-X, a multi-lingual code reasoning benchmark that contains 19 programming languages. It comprises at least 600 subjects for each language, along with 19K content-consistent tests in total. In particular, the construction pipeline of CRUXEVAL-X works in a fully automated and test-guided manner, which iteratively generates and repairs based on execution feedback. Also, to cross language barriers (e.g., dynamic/static type systems in Python/C++), we formulated various transition rules between language pairs to facilitate translation. Our intensive evaluation of 24 representative LLMs reveals the correlation between language pairs. For example, TypeScript and JavaScript show a significant positive correlation, while Racket has less correlation with other languages. More interestingly, even a model trained solely on Python can achieve at most 34.4% Pass@1 in other languages, revealing the cross-language generalization of LLMs.
翻訳日:2024-08-26 15:20:16 公開日:2024-08-23
# 高次元データを用いた個別処理効果推定における重要度の測定

Measuring Variable Importance in Individual Treatment Effect Estimation with High Dimensional Data ( http://arxiv.org/abs/2408.13002v1 )

ライセンス: Link先を確認
Joseph Paillard, Vitaliy Kolodyazhniy, Bertrand Thirion, Denis A. Engemann, (参考訳) 因果機械学習(ML)は、個々の治療効果を推定するための強力なツールを提供する。 現在、因果ML法は確立されているが、医療応用にとって重要な解釈可能性の重大な課題に直面している。 本研究では,条件平均処理効果(CATE)推定の文脈において,統計的に厳密な変数重要度評価のための条件置換重要度(CPI)法に基づく新しいアルゴリズムを提案する。 PermuCATEと呼ばれる手法はメタラーナーとMLモデルの両方に依存しない。 理論的解析と実証研究を通じて,本手法は変数の重要性の信頼性を示し,標準のLeave-One-Covariate-Out (LOCO)法と比較して低分散を示すことを示す。 この特性が統計力の増大にどのように寄与するかを解説し、小さなサンプルサイズや高次元設定における説明可能なMLの適用に不可欠である。 我々は,従来のベンチマークや,高度なCATE推定器を必要とする高次元および相関変数を用いたより複雑な設定を含む,様々なシミュレーションシナリオにおいて,このアプローチの利点を実証的に実証した。

Causal machine learning (ML) promises to provide powerful tools for estimating individual treatment effects. Although causal ML methods are now well established, they still face the significant challenge of interpretability, which is crucial for medical applications. In this work, we propose a new algorithm based on the Conditional Permutation Importance (CPI) method for statistically rigorous variable importance assessment in the context of Conditional Average Treatment Effect (CATE) estimation. Our method termed PermuCATE is agnostic to both the meta-learner and the ML model used. Through theoretical analysis and empirical studies, we show that this approach provides a reliable measure of variable importance and exhibits lower variance compared to the standard Leave-One-Covariate-Out (LOCO) method. We illustrate how this property leads to increased statistical power, which is crucial for the application of explainable ML in small sample sizes or high-dimensional settings. We empirically demonstrate the benefits of our approach in various simulation scenarios, including previously proposed benchmarks as well as more complex settings with high-dimensional and correlated variables that require advanced CATE estimators.
翻訳日:2024-08-26 15:20:16 公開日:2024-08-23
# BoostTrack++: 複数のオブジェクト追跡において、より多くのオブジェクトを検出するためにトラックレット情報を使用する

BoostTrack++: using tracklet information to detect more objects in multiple object tracking ( http://arxiv.org/abs/2408.13003v1 )

ライセンス: Link先を確認
Vukašin Stanojević, Branimir Todorović, (参考訳) 多重物体追跡(MOT)は、正の正の検知された有界箱の選択に大きく依存する。 しかし、この問題のこの側面は、主に2段階のアソシエーションを採用し、第2段階の低信頼検出を活用することによって見落とされ、緩和される。 最近提案されたBoostTrackは、複数のステージアソシエーションアプローチの欠点を回避し、検出信頼度向上を適用して低信頼度検出を使用する。 本稿では,BoostTrackにおける信頼性向上の限界を特定し,その性能向上手法を提案する。 よりリッチな類似度尺度を構築し,真の正検出のより良い選択を可能にするために,形状,マハラノビス距離,新しいソフトBIoU類似度の組み合わせを提案する。 類似度尺度と過去の信頼度スコアに基づいて新しい信頼度スコアを算出するソフト検出信頼度向上手法を提案し、定期的に更新されていない検出値とトラストレットとの類似度を低くするために、様々な類似度閾値を導入する。 提案された加算は相互に独立であり、任意のMOTアルゴリズムで使用することができる。 BoostTrack+ベースラインと組み合わせることで,MOT17データセットの最先端結果と,MOT20データセットの最先端HOTAとIDF1スコアの新たな結果が得られる。 ソースコードは、https://github.com/vukasin-stanojevic/BoostTrack で入手できる。

Multiple object tracking (MOT) depends heavily on selection of true positive detected bounding boxes. However, this aspect of the problem is mostly overlooked or mitigated by employing two-stage association and utilizing low confidence detections in the second stage. Recently proposed BoostTrack attempts to avoid the drawbacks of multiple stage association approach and use low-confidence detections by applying detection confidence boosting. In this paper, we identify the limitations of the confidence boost used in BoostTrack and propose a method to improve its performance. To construct a richer similarity measure and enable a better selection of true positive detections, we propose to use a combination of shape, Mahalanobis distance and novel soft BIoU similarity. We propose a soft detection confidence boost technique which calculates new confidence scores based on the similarity measure and the previous confidence scores, and we introduce varying similarity threshold to account for lower similarity measure between detections and tracklets which are not regularly updated. The proposed additions are mutually independent and can be used in any MOT algorithm. Combined with the BoostTrack+ baseline, our method achieves near state of the art results on the MOT17 dataset and new state of the art HOTA and IDF1 scores on the MOT20 dataset. The source code is available at: https://github.com/vukasin-stanojevic/BoostTrack .
翻訳日:2024-08-26 15:20:16 公開日:2024-08-23
# EasyControl:制御可能生成と補間のためのビデオ拡散への制御ネット

EasyControl: Transfer ControlNet to Video Diffusion for Controllable Generation and Interpolation ( http://arxiv.org/abs/2408.13005v1 )

ライセンス: Link先を確認
Cong Wang, Jiaxi Gu, Panwen Hu, Haoyu Zhao, Yuanfan Guo, Jianhua Han, Hang Xu, Xiaodan Liang, (参考訳) 安定拡散によるテキスト誘導画像生成技術の進歩に伴い,映像生成は学術界で注目を集めている。 しかし、動画は動画よりもリッチなコンテンツを含んでいるため、動画生成のためのテキストガイダンスのみに依存しているため、深刻な制限がある。 この情報は、平文で適切に記述されることがほとんどない。 幸運なことに、コンピュータビジョンでは、様々な視覚表現が生成を導くための追加の制御信号として機能する。 これらの信号の助けを借りて、ビデオ生成はより細部まで制御でき、異なるアプリケーションに対する柔軟性を高めることができる。 しかし、様々なコントロールを統合することは簡単ではない。 本稿では,EasyControlというユニバーサルフレームワークを提案する。 コンディションアダプタによるコンディション特徴の伝播と注入により,ユーザが単一のコンディションマップでビデオ生成を制御することができる。 本フレームワークでは, 生画素, 深度, HEDなどの様々な条件を, 異なるUnetベースの事前学習ビデオ拡散モデルに統合し, 実用的コストを低く抑えることができる。 我々は,公開データセットに関する総合的な実験を行い,定量的および定性的な結果から,本手法が最先端の手法より優れていることを示す。 EasyControlは、以前の作業と比べて、複数のバリデーションデータセットにわたるさまざまな評価指標を大幅に改善する。 具体的には、スケッチ・ツー・ビデオ生成タスクでは、VideoComposerと比較して、FVDで152.0、ISで19.9の改善がUCF101で達成されている。 その結果,他の画像・映像モデルと比較して,UCF101とMSR-VTTではFVDとISが高い結果が得られた。

Following the advancements in text-guided image generation technology exemplified by Stable Diffusion, video generation is gaining increased attention in the academic community. However, relying solely on text guidance for video generation has serious limitations, as videos contain much richer content than images, especially in terms of motion. This information can hardly be adequately described with plain text. Fortunately, in computer vision, various visual representations can serve as additional control signals to guide generation. With the help of these signals, video generation can be controlled in finer detail, allowing for greater flexibility for different applications. Integrating various controls, however, is nontrivial. In this paper, we propose a universal framework called EasyControl. By propagating and injecting condition features through condition adapters, our method enables users to control video generation with a single condition map. With our framework, various conditions including raw pixels, depth, HED, etc., can be integrated into different Unet-based pre-trained video diffusion models at a low practical cost. We conduct comprehensive experiments on public datasets, and both quantitative and qualitative results indicate that our method outperforms state-of-the-art methods. EasyControl significantly improves various evaluation metrics across multiple validation datasets compared to previous works. Specifically, for the sketch-to-video generation task, EasyControl achieves an improvement of 152.0 on FVD and 19.9 on IS, respectively, in UCF101 compared with VideoComposer. For fidelity, our model demonstrates powerful image retention ability, resulting in high FVD and IS in UCF101 and MSR-VTT compared to other image-to-video models.
翻訳日:2024-08-26 15:20:16 公開日:2024-08-23
# LLMアライメントタスクにおけるLCM-as-a-Judgeの体系的評価:説明可能なメトリックとディバースプロンプトテンプレート

Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates ( http://arxiv.org/abs/2408.13006v1 )

ライセンス: Link先を確認
Hui Wei, Shenghua He, Tian Xia, Andy Wong, Jingyang Lin, Mei Han, (参考訳) RLHFやDPOといったアライメントアプローチを積極的に研究し、大きな言語モデル(LLM)を人間の好みに合わせる。 GPT-4のような商用の大規模言語モデル(LLM)は、最近、異なるLLMアライメントアプローチの評価と比較に使われている。 これらのモデルは、人間の嗜好を驚くほど早くフィードバックし、低コストで近似する有望な能力のために、人間の評価者の代理として機能する。 この手法を LLM-as-a-judge と呼ぶ。 しかし、LLM判事の偏見と矛盾した意思決定による信頼性に関する懸念が浮上した。 従来の研究では、LLM審査員の信頼性と人間の嗜好との整合性を評価するための堅牢な評価フレームワークの開発が試みられている。 しかし, 評価基準は十分な説明性に欠けることが多く, LLMの内部矛盾に対処できない場合が多い。 さらに、LLM-as-a-judge法を適用した場合の様々なプロンプトテンプレートの影響について、既存の研究は不十分である。 本研究は,LLM内部の不整合性を考慮した理論的解釈可能性の向上と信頼性指標の整合性向上による評価指標の定義により,アライメントタスク(例えば要約)におけるLCM判断を体系的に評価する。 我々は,LLM審査員の信頼性とアライメントを評価,比較,可視化する枠組みを開発し,アライメントタスクにおけるLLM審査員の選択を支援する。 以上の結果から,LLM判定性能に対するプロンプトテンプレートの影響や,LLM判定器とヒト評価器との中間的なアライメントレベルに有意な影響が示唆された。

Alignment approaches such as RLHF and DPO are actively investigated to align large language models (LLMs) with human preferences. Commercial large language models (LLMs) like GPT-4 have been recently employed to evaluate and compare different LLM alignment approaches. These models act as surrogates for human evaluators due to their promising abilities to approximate human preferences with remarkably faster feedback and lower costs. This methodology is referred to as LLM-as-a-judge. However, concerns regarding its reliability have emerged, attributed to LLM judges' biases and inconsistent decision-making. Previous research has sought to develop robust evaluation frameworks for assessing the reliability of LLM judges and their alignment with human preferences. However, the employed evaluation metrics often lack adequate explainability and fail to address the internal inconsistency of LLMs. Additionally, existing studies inadequately explore the impact of various prompt templates when applying LLM-as-a-judge methods, which leads to potentially inconsistent comparisons between different alignment algorithms. In this work, we systematically evaluate LLM judges on alignment tasks (e.g. summarization) by defining evaluation metrics with improved theoretical interpretability and disentangling reliability metrics with LLM internal inconsistency. We develop a framework to evaluate, compare, and visualize the reliability and alignment of LLM judges to provide informative observations that help choose LLM judges for alignment tasks. Our results indicate a significant impact of prompt templates on LLM judge performance, as well as a mediocre alignment level between the tested LLM judges and human evaluators.
翻訳日:2024-08-26 15:20:16 公開日:2024-08-23
# CTC-Trained 自動音声認識モデルのストリーム化のための主観的識別訓練

Focused Discriminative Training For Streaming CTC-Trained Automatic Speech Recognition Models ( http://arxiv.org/abs/2408.13008v1 )

ライセンス: Link先を確認
Adnan Haider, Xingyu Na, Erik McDermott, Tim Ng, Zhen Huang, Xiaodan Zhuang, (参考訳) 本稿では,CTC と CTC の補間とアテンションベースのエンコーダ・デコーダ・デコーダ・デコーダ(AED)の損失を用いて訓練された,ストリーミング語片のエンドツーエンド(E2E)自動音声認識(ASR)モデルを改善するための,FDT (Focused Discriminative Training) と呼ばれる新たなトレーニングフレームワークを提案する。 提案手法は,音声の難解なセグメントに対するモデルの認識を識別し,改善するための新しい枠組みを提案する。 特に、このトレーニングフレームワークは隠れマルコフモデル(HMM)と格子とは独立であり、標準的な差別的トレーニングアプローチで通常必要とされるように、HMMトポロジー、レキシコン、グラフ生成に関する実質的な意思決定の必要性を排除している。 エンコーダ上でのMMIやMWERの損失による微調整に比べて,FDTは,LibriSpeechでトレーニングしたストリーミングモデルにおいて,ワード誤り率(WER)の低減に有効であることが示されている。 さらに,600k時間のアシスタントおよびディクテーションデータセットに基づいて学習した単語ピースストリーミングE2Eモデルの改良にも有効であることが示された。

This paper introduces a novel training framework called Focused Discriminative Training (FDT) to further improve streaming word-piece end-to-end (E2E) automatic speech recognition (ASR) models trained using either CTC or an interpolation of CTC and attention-based encoder-decoder (AED) loss. The proposed approach presents a novel framework to identify and improve a model's recognition on challenging segments of an audio. Notably, this training framework is independent of hidden Markov models (HMMs) and lattices, eliminating the need for substantial decision-making regarding HMM topology, lexicon, and graph generation, as typically required in standard discriminative training approaches. Compared to additional fine-tuning with MMI or MWER loss on the encoder, FDT is shown to be more effective in achieving greater reductions in Word Error Rate (WER) on streaming models trained on LibriSpeech. Additionally, this method is shown to be effective in further improving a converged word-piece streaming E2E model trained on 600k hours of assistant and dictation dataset.
翻訳日:2024-08-26 15:10:31 公開日:2024-08-23
# LLM自動化によるフェデレーション学習のためのWebベースソリューション

A Web-Based Solution for Federated Learning with LLM-Based Automation ( http://arxiv.org/abs/2408.13010v1 )

ライセンス: Link先を確認
Chamith Mawela, Chaouki Ben Issaid, Mehdi Bennis, (参考訳) フェデレートラーニング(FL)は、分散デバイス間で協調的な機械学習に有望なアプローチを提供する。 しかし、その採用は、信頼性の高い通信アーキテクチャの構築の複雑さと、機械学習とネットワークプログラミングの両方の専門知識の必要性によって妨げられている。 本稿では、意図に基づく自動化を統合しつつ、FLタスクのオーケストレーションを簡単にする包括的ソリューションを提案する。 我々は,FedAvg(Federated Averaging)アルゴリズムをサポートするユーザフレンドリーなWebアプリケーションを開発した。 バックエンドソリューションは、パラメータサーバとエッジノード間の通信を効率的に管理する。 また、FL性能を最適化するためにモデル圧縮とスケジューリングアルゴリズムを実装した。 さらに、カスタマイズされたデータセットに基づいて訓練された微調整言語モデル(LLM)を用いて、FLにおける意図に基づく自動化について検討し、高いレベルのプロンプトを用いてFLタスクを実行できるようにする。 LLMベースの自動化ソリューションは、標準的なWebベースソリューションに匹敵するテスト精度を達成し、転送バイトを最大64%削減し、FLタスクのCPU時間を最大46%削減する。 また、LLMを用いたニューラルアーキテクチャサーチ(NAS)とハイパーパラメータ最適化(HPO)を活用して性能を向上する。 本研究では,本手法を用いることで,FLタスクの精度を10~20%向上できることを示す。

Federated Learning (FL) offers a promising approach for collaborative machine learning across distributed devices. However, its adoption is hindered by the complexity of building reliable communication architectures and the need for expertise in both machine learning and network programming. This paper presents a comprehensive solution that simplifies the orchestration of FL tasks while integrating intent-based automation. We develop a user-friendly web application supporting the federated averaging (FedAvg) algorithm, enabling users to configure parameters through an intuitive interface. The backend solution efficiently manages communication between the parameter server and edge nodes. We also implement model compression and scheduling algorithms to optimize FL performance. Furthermore, we explore intent-based automation in FL using a fine-tuned Language Model (LLM) trained on a tailored dataset, allowing users to conduct FL tasks using high-level prompts. We observe that the LLM-based automated solution achieves comparable test accuracy to the standard web-based solution while reducing transferred bytes by up to 64% and CPU time by up to 46% for FL tasks. Also, we leverage the neural architecture search (NAS) and hyperparameter optimization (HPO) using LLM to improve the performance. We observe that by using this approach test accuracy can be improved by 10-20% for the carried out FL tasks.
翻訳日:2024-08-26 15:10:31 公開日:2024-08-23
# 光と相互作用する極性系のラビ周波数

Rabi frequency for polar systems interacting with light ( http://arxiv.org/abs/2408.13011v1 )

ライセンス: Link先を確認
Piotr Gładysz, Karolina Słowik, (参考訳) 超強結合系における古典的外部ビームに結合した極性系のダイナミクスについて検討する。 極性系によって維持される永久双極子モーメント(PDM)は電磁場に結合し、原子系の複雑な力学に反映される差周波や高調波発生のような様々な過程を引き起こす。 ここでは、動的参照フレームで簡単に記述できることを実証する。 周波数シフト, 駆動磁場との結合強度, 再スケール緩和率について, 効果的なパラメータを記述したJaynes-Cummings型フレームワークを導出する。 相互作用強度と磁場振幅とのよく知られた線形スケーリングは、非線形依存に置き換えられ、量子系アンサンブルと永久双極子との整合性を改善する潜在的な応用が示唆される。

We investigate the dynamics of polar systems coupled to classical external beams in the ultrastrong coupling regime. The permanent dipole moments (PDMs) sustained by polar systems can couple to the electromagnetic field, giving rise to a variety of processes such as difference-frequency and harmonic generation, reflected in complicated dynamics of the atomic system. Here, we demonstrate that the dynamics can be described simply in a dynamic reference frame. We derive a Jaynes-Cummings-like framework with effective parameters describing frequency shift, coupling strength with the driving field, and a rescaled relaxation rate. The familiar linear scaling of the interaction strength with the field amplitude is replaced with a nonlinear dependence, suggesting potential applications for improving the coherence of quantum system ensembles with permanent dipoles.
翻訳日:2024-08-26 15:10:31 公開日:2024-08-23
# パーソナライズドメディカル:患者由来細胞培養における薬物応答予測機械学習モデルの構築

Personalised Medicine: Establishing predictive machine learning models for drug responses in patient derived cell culture ( http://arxiv.org/abs/2408.13012v1 )

ライセンス: Link先を確認
Abbi Abdel-Rehim, Oghenejokpeme Orhobor, Gareth Griffiths, Larisa Soldatova, Ross D. King, (参考訳) がん治療におけるパーソナライズドメディカルの概念はますます重要になりつつある。 腫瘍患者に特異的に投与される薬物は、すでに存在する。 しかし、この分野はまだ初期段階であり、パーソナライズされた治療は医療の標準には程遠い。 パーソナライズドメディカルは、しばしばオミクスデータの利用に関連している。 しかし、マルチオミクスデータの実装は、データ内の情報の多様性と規模、そして細胞内の無数の相互作用の背後にある複雑さにより、困難であることが証明されている。 精密医療への別のアプローチは、細胞の機能ベースのプロファイルを採用することである。 これには、患者由来の細胞に対する様々な薬物のスクリーニングが含まれる。 ここでは, 極めて多様な患者由来の細胞株に対する薬物スクリーンの集合体を, 「新規患者」に対する治療オプションの同定に活用する概念実証を行った。 本手法は, 標的細胞に対する活性に応じて薬剤のランク付けに有効であることを示す。 薬物治療細胞株の様々なサブセットから活性を効果的に阻害できるため,本手法は大きな可能性を秘めている,と我々は主張する。

The concept of personalised medicine in cancer therapy is becoming increasingly important. There already exist drugs administered specifically for patients with tumours presenting well-defined mutations. However, the field is still in its infancy, and personalised treatments are far from being standard of care. Personalised medicine is often associated with the utilisation of omics data. Yet, implementation of multi-omics data has proven difficult, due to the variety and scale of the information within the data, as well as the complexity behind the myriad of interactions taking place within the cell. An alternative approach to precision medicine is to employ a function-based profile of the cell. This involves screening a range of drugs against patient derived cells. Here we demonstrate a proof-of-concept, where a collection of drug screens against a highly diverse set of patient-derived cell lines, are leveraged to identify putative treatment options for a 'new patient'. We show that this methodology is highly efficient in ranking the drugs according to their activity towards the target cells. We argue that this approach offers great potential, as activities can be efficiently imputed from various subsets of the drug treated cell lines that do not necessarily originate from the same tissue type.
翻訳日:2024-08-26 15:10:31 公開日:2024-08-23
# 低コスト高次元マルチパートエンタングルメント構造検出

High-dimentional Multipartite Entanglement Structure Detection with Low Cost ( http://arxiv.org/abs/2408.13015v1 )

ライセンス: Link先を確認
Rui Li, Shikun Zhang, Zheng Qin, Chunxiao Du, Yang Zhou, Zhisong Xiao, (参考訳) 量子絡み検出と特徴付けは、様々な量子情報プロセスにおいて不可欠である。 既存のエンタングルメント検出法のほとんどは、多くの測定と複雑な設定を必要とする量子状態の完全な記述に大きく依存している。 これは理論上、システムのサイズが大きくなるにつれてコストがかかり非現実的になる。 本研究では,絡み合い構造検出に適した表現を生成するマルチビューニューラルネットワークモデルを提案する。 必要な量子測定の数は、量子ビット数で指数的に増加するよりも多項式である。 この顕著なリソースコストの削減により、大規模システムにおける特定の絡み合い構造を検出することができる。 シミュレーションにより,最大19量子ビット系における95%以上の検出精度が得られた。 エンタングルメント構造の普遍的でフレキシブルで資源効率のよい解析を可能にすることにより,幅広い応用において量子状態を活用する能力を高めることができる。

Quantum entanglement detection and characterization are crucial for various quantum information processes. Most existing methods for entanglement detection rely heavily on a complete description of the quantum state, which requires numerous measurements and complex setups. This makes these theoretically sound approaches costly and impractical, as the system size increases. In this work, we propose a multi-view neural network model to generate representations suitable for entanglement structure detection. The number of required quantum measurements is polynomial rather than exponential increase with the qubit number. This remarkable reduction in resource costs makes it possible to detect specific entanglement structures in large-scale systems. Numerical simulations show that our method achieves over 95% detection accuracy for up to 19 qubits systems. By enabling a universal, flexible and resource-efficient analysis of entanglement structures, our approach enhances the capability of utilizing quantum states across a wide range of applications.
翻訳日:2024-08-26 15:10:31 公開日:2024-08-23
# 量子計測における可聴性および非可聴性

Speakable and unspeakable in quantum measurements ( http://arxiv.org/abs/2408.13023v1 )

ライセンス: Link先を確認
D. Sokolovski, D. Alonso, S. Brouard, (参考訳) 量子力学(Quantum mechanics)は、その正統性バージョンにおいて、2つの観測の間で量子システムの状態が知られていること、あるいは、言うまでもないことに対して厳しい制限を課している。 いわゆる「弱測定」に基づく比較的新しいアプローチは、不正確な摂動測定装置に対するシステムの応答を研究することによって、そのような禁止された知識を得ることができることを示唆している。 さらに、物理変数の概念全体を改訂することを提案し、反直観的量子行動の様々な例を提示している。 どちらの見解も量子論の根底にあるが、直接比較されることは稀である。 新しいテクニックは、正統的な極限を超越するか、あるいは単にこれらの限界が本当に必要であることを証明しなければならない。 両可能性について検討し, 正統性について検討する。

Quantum mechanics, in its orthodox version, imposes severe limits on what can be known, or even said, about the condition of a quantum system between two observations. A relatively new approach, based on so-called "weak measurements", suggests that such forbidden knowledge can be gained by studying the system's response to an inaccurate weakly perturbing measuring device. It goes further to propose revising the whole concept of physics variables, and offers various examples of counterintuitive quantum behaviour. Both views go to the very heart of quantum theory, and yet are rarely compared directly. A new technique must either transcend the orthodox limits, or just prove that these limits are indeed necessary. We study both possibilities, and find for the orthodoxy.
翻訳日:2024-08-26 15:10:31 公開日:2024-08-23
# 3次元起伏接地のための2次元不変精度知識の学習

Learning 2D Invariant Affordance Knowledge for 3D Affordance Grounding ( http://arxiv.org/abs/2408.13024v1 )

ライセンス: Link先を確認
Xianqiang Gao, Pingrui Zhang, Delin Qu, Dong Wang, Zhigang Wang, Yan Ding, Bin Zhao, Xuelong Li, (参考訳) 3D Object Affordance Groundingは、3Dオブジェクト上の機能領域を予測することを目的としており、ロボット工学における幅広い応用の基礎を築いた。 近年の進歩は、3D領域と1つの人間と物体の相互作用画像のマッピングを学習することでこの問題に対処している。 しかし、人間と物体の相互作用画像における3次元物体と物体の幾何学的構造は必ずしも一致しないため、一般化は不十分である。 この問題に対処するために,我々は,複数の人間と物体の相互作用画像から,同じ空き圏内での一般化可能な不変空き領域の知識を学習することを提案する。 具体的には, <textbf{M}ulti-\textbf{I}mage Guided Invariant-\textbf{F}eature-Aware 3D \textbf{A}ffordance \textbf{G}rounding (\textbf{MIFAG}) フレームワークを紹介する。 複数の人間と物体の相互作用画像に共通する相互作用パターンを同定することにより、3Dオブジェクトの空き領域を推定する。 Invariant Affordance Knowledge extract Module (\textbf{IAM}) は、反復的な更新戦略を用いて、複数の画像から段階的に整列したアプライアンス知識を抽出し、アプライアンス辞書に統合する。 次に、Affordance Dictionary Adaptive Fusion Module (\textbf{ADM}) は、複数の画像におけるすべての空き候補を考慮に入れた総合的なポイントクラウド表現を学習する。 さらに,Multi-Image and Point Affordance (\textbf{MIPA}) ベンチマークを構築し,提案手法は様々な比較実験において既存の最先端手法よりも優れていた。 プロジェクトページ: \url{https://goxq.github.io/mifag}

3D Object Affordance Grounding aims to predict the functional regions on a 3D object and has laid the foundation for a wide range of applications in robotics. Recent advances tackle this problem via learning a mapping between 3D regions and a single human-object interaction image. However, the geometric structure of the 3D object and the object in the human-object interaction image are not always consistent, leading to poor generalization. To address this issue, we propose to learn generalizable invariant affordance knowledge from multiple human-object interaction images within the same affordance category. Specifically, we introduce the \textbf{M}ulti-\textbf{I}mage Guided Invariant-\textbf{F}eature-Aware 3D \textbf{A}ffordance \textbf{G}rounding (\textbf{MIFAG}) framework. It grounds 3D object affordance regions by identifying common interaction patterns across multiple human-object interaction images. First, the Invariant Affordance Knowledge Extraction Module (\textbf{IAM}) utilizes an iterative updating strategy to gradually extract aligned affordance knowledge from multiple images and integrate it into an affordance dictionary. Then, the Affordance Dictionary Adaptive Fusion Module (\textbf{ADM}) learns comprehensive point cloud representations that consider all affordance candidates in multiple images. Besides, the Multi-Image and Point Affordance (\textbf{MIPA}) benchmark is constructed and our method outperforms existing state-of-the-art methods on various experimental comparisons. Project page: \url{https://goxq.github.io/mifag}
翻訳日:2024-08-26 15:10:31 公開日:2024-08-23
# 超短パルスを用いた電子干渉計測

Electronic interferometry with ultrashort plasmonic pulses ( http://arxiv.org/abs/2408.13025v1 )

ライセンス: Link先を確認
Seddik Ouacel, Lucas Mazzella, Thomas Kloss, Matteo Aluffi, Thomas Vasselon, Hermann Edlbauer, Junliang Wang, Clement Geffroy, Jashwanth Shaju, Michihisa Yamamoto, David Pomaranski, Shintaro Takada, Nobu-Hisa Kaneko, Giorgos Georgiou, Xavier Waintal, Matias Urdampilleta, Arne Ludwig, Andreas D. Wieck, Hermann Sellier, Christopher Bäuerle, (参考訳) 電子はゆっくり伝播し、したがってリアルタイムで制御しやすく、クーロン相互作用は異なるキュービット間の直接絡み合いを可能にする。 そのコヒーレンス時間は限られているが、ピコ秒スケールの制御はコヒーレンス操作の数で競争力を発揮する。 鍵となる課題は、注入されたプラズモンパルス幅が量子デバイス次元よりも短い動的状態を達成することである。 ここでは、超短電子プラズモンパルスを14ミクロメートルのマッハ・ツェンダー干渉計に注入することで、量子ナノエレクトロニクスシステムでこの新しい状態に達する。 以上の結果から,超短パルスでは量子コヒーレンスを保ち,直流系と比較してコヒーレント振動のコントラストが高められた。 さらに、このコヒーレンスは大きなバイアス電圧の下でも頑健である。 このマイルストーンは、ローカライズされたキュービットアーキテクチャに代わる有望な代替手段としてのフライングキュービットの実現可能性を示し、ハードウェアフットプリントの削減、接続性の向上、スケーラブルな量子情報処理の可能性を提供する。

Electronic flying qubits offer an interesting alternative to photonic qubits: electrons propagate slower, hence easier to control in real time, and Coulomb interaction enables direct entanglement between different qubits. While their coherence time is limited, picosecond-scale control would make them competitive in terms of number of possible coherent operations. The key challenge lies in achieving the dynamical regime, where the injected plasmonic pulse width is shorter than the quantum device dimensions. Here we reach this new regime in a quantum nanoelectronic system by injecting ultrashort single electron plasmonic pulses into a 14-micrometer-long Mach-Zehnder interferometer. Our findings reveal that quantum coherence is preserved for ultrashort plasmonic pulses, exhibiting enhanced contrast of coherent oscillations compared to the DC regime. Moreover, this coherence remains robust even under large bias voltages. This milestone demonstrates the feasibility of flying qubits as a promising alternative to localized qubit architectures, offering reduced hardware footprint, increased connectivity, and potential for scalable quantum information processing.
翻訳日:2024-08-26 15:10:31 公開日:2024-08-23
# 不完全な発話書き換えのための強化学習を用いた文脈内学習

In-Context Learning with Reinforcement Learning for Incomplete Utterance Rewriting ( http://arxiv.org/abs/2408.13028v1 )

ライセンス: Link先を確認
Haowei Du, Dongyan Zhao, (参考訳) 大規模言語モデル(LLM)の文脈内学習(ICL)は、LLMがいくつかの例で拡張された命令に基づいてのみ予測を行うコミュニティにおいて注目されている。 ICLの既存の例選択方法はスパースまたは高密度レトリバーを使用し、有効性能を導出する。 しかし、これらの手法はLLMの直接フィードバックを利用してレトリバーを訓練するわけではなく、選択した例はLLMの類似性を必ずしも改善できない。 そこで本研究では,言語モデルセレクタとLLMジェネレータから構成されるRLS(Regressed Learning framework for example selection)を提案する。 LMセレクタは、候補の例を高密度表現にエンコードし、上位k例をLSMのデモに選択する。 LLMの出力は、報酬とポリシー勾配を計算し、LMセレクタを最適化するために使用される。 異なるデータセットで実験を行い、既存のサンプル選択方法よりも大幅に優れています。 さらに,本手法は,少数のショット設定において,教師付きファインタニング(SFT)モデルよりも優れていることを示す。 さらに, LLM のICL 性能において, 実例と実例の類似性が重要であることを示す実験を行った。

In-context learning (ICL) of large language models (LLMs) has attracted increasing attention in the community where LLMs make predictions only based on instructions augmented with a few examples. Existing example selection methods for ICL utilize sparse or dense retrievers and derive effective performance. However, these methods do not utilize direct feedback of LLM to train the retriever and the examples selected can not necessarily improve the analogy ability of LLM. To tackle this, we propose our policy-based reinforcement learning framework for example selection (RLS), which consists of a language model (LM) selector and an LLM generator. The LM selector encodes the candidate examples into dense representations and selects the top-k examples into the demonstration for LLM. The outputs of LLM are adopted to compute the reward and policy gradient to optimize the LM selector. We conduct experiments on different datasets and significantly outperform existing example selection methods. Moreover, our approach shows advantages over supervised finetuning (SFT) models in few shot setting. Further experiments show the balance of abundance and the similarity with the test case of examples is important for ICL performance of LLM.
翻訳日:2024-08-26 15:10:31 公開日:2024-08-23
# 視覚的汚濁下における画像からの屋内シーン認識

Indoor scene recognition from images under visual corruptions ( http://arxiv.org/abs/2408.13029v1 )

ライセンス: Link先を確認
Willams de Lima Costa, Raul Ismayilov, Nicola Strisciuglio, Estefania Talavera Martinez, (参考訳) 屋内シーンの分類は、知的ロボット工学のような様々な応用において重要な要素である。 ディープラーニングはこの分野を著しく進歩させてきたが、モデルはしばしば画像の破損による性能低下に悩まされる。 本稿では,マルチモーダルデータ融合を利用した屋内シーン認識への革新的アプローチを提案し,キャプションに基づくセマンティック特徴を視覚データと組み合わせることで,汚職に対する精度と堅牢性を向上する。 グラフ畳み込みネットワーク(GCN)を介してCNNモデルから意味字幕を合成する2つのマルチモーダルネットワークについて検討する。 本研究は,Places365データセットの破損部分集合に対して評価した場合,Top-1の精度が顕著に向上し,モデル性能が著しく向上することを示す。 さらに,非破壊画像に対してスタンドアロンの視覚モデルでは高い精度を示したが,その性能は汚損重大度の増加とともに著しく低下した。 逆に、マルチモーダルモデルでは、クリーンな条件下での精度が向上し、様々な画像の破損に対してかなりの堅牢性を示した。 これらの結果は,キャプションを通した高レベルの文脈情報の導入の有効性を強調し,分類システムのレジリエンスを高めるための有望な方向性を示唆している。

The classification of indoor scenes is a critical component in various applications, such as intelligent robotics for assistive living. While deep learning has significantly advanced this field, models often suffer from reduced performance due to image corruption. This paper presents an innovative approach to indoor scene recognition that leverages multimodal data fusion, integrating caption-based semantic features with visual data to enhance both accuracy and robustness against corruption. We examine two multimodal networks that synergize visual features from CNN models with semantic captions via a Graph Convolutional Network (GCN). Our study shows that this fusion markedly improves model performance, with notable gains in Top-1 accuracy when evaluated against a corrupted subset of the Places365 dataset. Moreover, while standalone visual models displayed high accuracy on uncorrupted images, their performance deteriorated significantly with increased corruption severity. Conversely, the multimodal models demonstrated improved accuracy in clean conditions and substantial robustness to a range of image corruptions. These results highlight the efficacy of incorporating high-level contextual information through captions, suggesting a promising direction for enhancing the resilience of classification systems.
翻訳日:2024-08-26 15:10:31 公開日:2024-08-23
# VFM-Det:大規模ファンデーションモデルによる高性能車両検出に向けて

VFM-Det: Towards High-Performance Vehicle Detection via Large Foundation Models ( http://arxiv.org/abs/2408.13031v1 )

ライセンス: Link先を確認
Wentao Wu, Fanghua Hong, Xiao Wang, Chenglong Li, Jin Tang, (参考訳) 既存の車両検出器は、通常、訓練済みのバックボーン(例えば、ResNet、ViT)に基づいて車両画像上の典型的な検出器(例えば、YOLO、RCNN、DETRシリーズ)を訓練することで得られる。 一部の研究者は、事前訓練された大きな基礎モデルを使用して検出性能を活用、強化している。 しかし、これらの検出器は、彼らが使用する大型モデルは特に車両用に設計されていないため、最適以下の結果しか得られないと考えている。 さらに、それらの結果は視覚的特徴に大きく依存しており、車両のセマンティック情報と視覚的表現との整合性を考えることはめったにない。 本研究では,VFM-Detと呼ばれる,事前訓練された基礎車両モデル(VehicleMAE)と大規模言語モデル(T5)に基づく新しい車両検出パラダイムを提案する。 リージョン提案に基づく検出フレームワークに従っており、各提案の特徴をVagerMAEを使って拡張することができる。 さらに重要なことは、これらの提案の車両の意味的属性を予測し、特徴ベクトルに変換して、対照的な学習を通じて視覚機能を強化する、新しいVAtt2Vecモジュールを提案することである。 3つの車両検出ベンチマークデータセットの大規模な実験は、当社の車両検出装置の有効性を徹底的に証明した。 具体的には、ベースラインアプローチを$+5.1\%$、$+6.2\%$、$AP_{0.5}$、$AP_{0.75}$のメトリクスで改善しています。

Existing vehicle detectors are usually obtained by training a typical detector (e.g., YOLO, RCNN, DETR series) on vehicle images based on a pre-trained backbone (e.g., ResNet, ViT). Some researchers also exploit and enhance the detection performance using pre-trained large foundation models. However, we think these detectors may only get sub-optimal results because the large models they use are not specifically designed for vehicles. In addition, their results heavily rely on visual features, and seldom of they consider the alignment between the vehicle's semantic information and visual representations. In this work, we propose a new vehicle detection paradigm based on a pre-trained foundation vehicle model (VehicleMAE) and a large language model (T5), termed VFM-Det. It follows the region proposal-based detection framework and the features of each proposal can be enhanced using VehicleMAE. More importantly, we propose a new VAtt2Vec module that predicts the vehicle semantic attributes of these proposals and transforms them into feature vectors to enhance the vision features via contrastive learning. Extensive experiments on three vehicle detection benchmark datasets thoroughly proved the effectiveness of our vehicle detector. Specifically, our model improves the baseline approach by $+5.1\%$, $+6.2\%$ on the $AP_{0.5}$, $AP_{0.75}$ metrics, respectively, on the Cityscapes dataset.The source code of this work will be released at https://github.com/Event-AHU/VFM-Det.
翻訳日:2024-08-26 15:10:31 公開日:2024-08-23
# 多部量子相関を捉える大域受容場の創発

Emergence of global receptive fields capturing multipartite quantum correlations ( http://arxiv.org/abs/2408.13033v1 )

ライセンス: Link先を確認
Oleg M. Sotnikov, Ilia A. Iakovlev, Evgeniy O. Kiktenko, Mikhail I. Katsnelson, Aleksey K. Fedorov, Vladimir V. Mazurenko, (参考訳) 量子物理学において、波動関数レベルで明確に定義された構造を持つ単純なデータでさえ、その構成要素間の非常に複雑な相関によって特徴づけられる。 量子相関の固有の非局所性は、一般に単純で透明な解釈を提供することを防ぎ、ニューラルネットワークと量子状態を近似する先進的な古典的手法においても難しい問題である。 ここでは、測定から量子統計学を学習しながら、ニューラルネットワークの重み空間をモニタリングすることにより、複雑な多部パターンに関する物理的直観を発達させ、波動関数のより効率的な古典的表現を構築するのに役立つことを示す。 特に,高度に絡み合ったディック状態の量子トモグラフィーにおいて,制限ボルツマンマシン (RBM) の隠蔽層における受容場である,異なる大域的畳み込み構造の形成を観察する。 この基礎から、特定の量子波動関数だけでなく、異なる絡み合いを持つN量子ビットディック状態の全族に対して、正確に2パラメータの古典表現を提案する。 本研究は,非局所パターンを用いたデータ処理のための畳み込みニューラルネットワークの構築と,絡み合った量子状態の正確な学習ベース表現の開発方法について,新たな考察を行うことを示唆する。

In quantum physics, even simple data with a well-defined structure at the wave function level can be characterized by extremely complex correlations between its constituent elements. The inherent non-locality of the quantum correlations generally prevents one from providing their simple and transparent interpretation, which also remains a challenging problem for advanced classical techniques that approximate quantum states with neural networks. Here we show that monitoring the neural network weight space while learning quantum statistics from measurements allows to develop physical intuition about complex multipartite patterns and thus helps to construct more effective classical representations of the wave functions. Particularly, we observe the formation of distinct global convolutional structures, receptive fields in the hidden layer of the Restricted Boltzmann Machine (RBM) within the neural quantum tomography of the highly-entangled Dicke states. On this basis we propose an exact two-parameter classical representation not only for a specific quantum wave function, but for the whole family of the N-qubit Dicke states of different entanglement. Our findings suggest a fresh look at constructing convolutional neural networks for processing data with non-local patterns and pave the way for developing exact learning-based representations of entangled quantum states.
翻訳日:2024-08-26 15:10:31 公開日:2024-08-23
# フェアペア:ペアワイド比較によるフェアネス・アウェアランキングの回復

Fair Pairs: Fairness-Aware Ranking Recovery from Pairwise Comparisons ( http://arxiv.org/abs/2408.13034v1 )

ライセンス: Link先を確認
Georg Ahnert, Antonio Ferrara, Claudia Wagner, (参考訳) 人的判断に基づくペアワイズ比較は、アイテムや個人のランキングを決定する効果的な方法である。 しかしながら、人間のバイアスがペア比較から回復したランキングに永続するにつれて、アルゴリズムによる意思決定に影響を及ぼす。 本稿では,ペア比較による公平性を考慮したランキング回復の問題について紹介する。 ペア比較から得られたランクの公平度を定量化するグループ条件付き精度尺度を提案する。 得られたランキングの精度と公平性に及ぼす最先端のランキング回復アルゴリズムとサンプリング手法の影響を,合成データと経験データを用いて評価した。 FA*IR後処理によるFairness-Aware PageRankとGNNRankは、ペア比較において既存のバイアスを効果的に軽減し、復元されたランキングの全体的な精度を向上させる。 異なるアプローチの制限と長所を強調し、複製を容易にするPythonパッケージと、ペア比較による公正なランキングリカバリの今後の作業を提供する。

Pairwise comparisons based on human judgements are an effective method for determining rankings of items or individuals. However, as human biases perpetuate from pairwise comparisons to recovered rankings, they affect algorithmic decision making. In this paper, we introduce the problem of fairness-aware ranking recovery from pairwise comparisons. We propose a group-conditioned accuracy measure which quantifies fairness of rankings recovered from pairwise comparisons. We evaluate the impact of state-of-the-art ranking recovery algorithms and sampling approaches on accuracy and fairness of the recovered rankings, using synthetic and empirical data. Our results show that Fairness-Aware PageRank and GNNRank with FA*IR post-processing effectively mitigate existing biases in pairwise comparisons and improve the overall accuracy of recovered rankings. We highlight limitations and strengths of different approaches, and provide a Python package to facilitate replication and future work on fair ranking recovery from pairwise comparisons.
翻訳日:2024-08-26 15:10:31 公開日:2024-08-23
# S4D:ガウスと3次元制御点を用いた4次元実世界再構成

S4D: Streaming 4D Real-World Reconstruction with Gaussians and 3D Control Points ( http://arxiv.org/abs/2408.13036v1 )

ライセンス: Link先を確認
Bing He, Yunuo Chen, Guo Lu, Li Song, Wenjun Zhang, (参考訳) 近年,ガウシアンを用いた動的シーン再構築が注目度を高めている。 主流のアプローチは典型的には、大域的な変形場を用いて、標準空間の3Dシーンをワープする。 しかしながら、暗黙のニューラルネットワークの本質的に低周波な性質は、しばしば複素運動の非効率な表現につながる。 さらに、その構造的な剛性は、様々な解像度と持続時間を持つシーンへの適応を妨げる可能性がある。 これらの課題を克服するために、離散的な3次元制御ポイントを利用した新しいアプローチを導入する。 この方法は局所光線を物理的にモデル化し、従来のグラフィックスと学習可能なパイプラインを効果的に融合して、6自由度(6-DoF)運動表現を堅牢かつ効率的に行うモーションデカップリング座標系を確立する。 さらに、ガウスの制御点を組み込んだ一般化されたフレームワークを開発した。 最初の3次元再構成から始まり、我々のワークフローはストリーミング4次元実世界の再構築を4つの独立したサブモジュールに分解する。 提案手法は,Neu3DVおよびCMU-Panopticデータセットにおいて,既存の4Dガウス散乱技術より優れていることを示す。 また,NVIDIA 4070 GPUの1フレームあたり2秒以内で達成可能な3Dコントロールポイントの最適化によって,トレーニングの大幅な高速化を実現しています。

Recently, the dynamic scene reconstruction using Gaussians has garnered increased interest. Mainstream approaches typically employ a global deformation field to warp a 3D scene in the canonical space. However, the inherently low-frequency nature of implicit neural fields often leads to ineffective representations of complex motions. Moreover, their structural rigidity can hinder adaptation to scenes with varying resolutions and durations. To overcome these challenges, we introduce a novel approach utilizing discrete 3D control points. This method models local rays physically and establishes a motion-decoupling coordinate system, which effectively merges traditional graphics with learnable pipelines for a robust and efficient local 6-degrees-of-freedom (6-DoF) motion representation. Additionally, we have developed a generalized framework that incorporates our control points with Gaussians. Starting from an initial 3D reconstruction, our workflow decomposes the streaming 4D real-world reconstruction into four independent submodules: 3D segmentation, 3D control points generation, object-wise motion manipulation, and residual compensation. Our experiments demonstrate that this method outperforms existing state-of-the-art 4D Gaussian Splatting techniques on both the Neu3DV and CMU-Panoptic datasets. Our approach also significantly accelerates training, with the optimization of our 3D control points achievable within just 2 seconds per frame on a single NVIDIA 4070 GPU.
翻訳日:2024-08-26 15:10:31 公開日:2024-08-23
# 多ソースプライバシ保護のための臨床画像の分類効果の改善

Improving the Classification Effect of Clinical Images of Diseases for Multi-Source Privacy Protection ( http://arxiv.org/abs/2408.13038v1 )

ライセンス: Link先を確認
Tian Bowen, Xu Zhengyang, Yin Zhihao, Wang Jingying, Yue Yutao, (参考訳) 医療分野におけるプライバシーデータ保護は、データの共有に課題をもたらし、病院間でデータを統合し、高精度な補助診断モデルを訓練する能力を制限する。 従来の集中型トレーニング手法は、プライバシー保護原則に違反しているため、適用が難しい。 分散機械学習フレームワークとしてのフェデレーション学習は、この問題に対処するのに役立つが、複数の病院が同時にトレーニングに参加する必要がある。 これらの課題に対処するために,データベクトルに基づく医療プライバシデータトレーニングフレームワークを提案する。 このフレームワークにより、各病院は、プライベートデータ上でトレーニング済みのモデルを微調整し、データベクトル(ソリューション空間におけるモデルパラメータの最適化方向を表す)を計算し、それらをまとめて、複数の病院からモデル情報を統合する合成重みを生成することができる。 このアプローチは、プライベートデータを交換したり、同期トレーニングを必要とせずに、モデルパフォーマンスを向上させる。 実験により,患者プライバシを保護しながら,分散されたプライベートデータ資源を効果的に活用できることが確認された。 このアプローチを用いて訓練された補助診断モデルは、1つの病院で個別に訓練されたモデルよりも有意に優れており、医療データプライバシ保護とモデルトレーニングの対立を解消し、医療インテリジェンスの発展を促進するための新たな視点を提供する。

Privacy data protection in the medical field poses challenges to data sharing, limiting the ability to integrate data across hospitals for training high-precision auxiliary diagnostic models. Traditional centralized training methods are difficult to apply due to violations of privacy protection principles. Federated learning, as a distributed machine learning framework, helps address this issue, but it requires multiple hospitals to participate in training simultaneously, which is hard to achieve in practice. To address these challenges, we propose a medical privacy data training framework based on data vectors. This framework allows each hospital to fine-tune pre-trained models on private data, calculate data vectors (representing the optimization direction of model parameters in the solution space), and sum them up to generate synthetic weights that integrate model information from multiple hospitals. This approach enhances model performance without exchanging private data or requiring synchronous training. Experimental results demonstrate that this method effectively utilizes dispersed private data resources while protecting patient privacy. The auxiliary diagnostic model trained using this approach significantly outperforms models trained independently by a single hospital, providing a new perspective for resolving the conflict between medical data privacy protection and model training and advancing the development of medical intelligence.
翻訳日:2024-08-26 15:10:31 公開日:2024-08-23
# SpeechPrompt: 音声処理タスクのための言語モデルの提案

SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks ( http://arxiv.org/abs/2408.13040v1 )

ライセンス: Link先を確認
Kai-Wei Chang, Haibin Wu, Yu-Kai Wang, Yuan-Kuei Wu, Hua Shen, Wei-Cheng Tseng, Iu-thing Kang, Shang-Wen Li, Hung-yi Lee, (参考訳) プロンプティングは、事前訓練された言語モデル(LM)を利用するための実践的な方法となっている。 このアプローチにはいくつかの利点がある。 これにより、LMは最小限のトレーニングとパラメータ更新で新しいタスクに適応することができ、ストレージと計算の両方で効率が向上する。 さらに、プロンプトはLMの入力のみを変更し、言語モデルの生成能力を利用して様々な下流タスクを統一的に処理する。 これにより、タスク固有のモデルを設計する際の人的労力が大幅に削減される。 これらの利点は、LMによって提供されるタスクの数が増えるにつれてさらに顕著になる。 発声の強みに感銘を受けて,音声処理分野における音声LMの促進の可能性を探究する。 近年,言語モデリングにおいて,音声を離散単位に変換することへの関心が高まっている。 我々の先駆的な研究は、これらの量子化音声ユニットが、我々の統一的なプロンプトフレームワークの中で非常に多目的であることを示した。 クラスラベルとして機能するだけでなく、音声生成タスクのための音声信号に再合成できる豊富な音声情報も含んでいる。 具体的には,音声処理タスクを音声単位生成タスクに再構成する。 その結果、音声分類、シーケンス生成、音声生成などのタスクを単一の統一的なプロンプトフレームワークにシームレスに統合することができる。 実験結果から, 訓練可能なパラメータの数に類似した自己教師付き学習モデルに基づく, 強力な微調整法と比較して, プロンプト法は競争性能を向上できることがわかった。 プロンプト法はまた、数ショット設定で有望な結果を示す。 さらに、高度な音声LMがステージに登場し、提案するプロンプトフレームワークが大きな可能性を秘めている。

Prompting has become a practical method for utilizing pre-trained language models (LMs). This approach offers several advantages. It allows an LM to adapt to new tasks with minimal training and parameter updates, thus achieving efficiency in both storage and computation. Additionally, prompting modifies only the LM's inputs and harnesses the generative capabilities of language models to address various downstream tasks in a unified manner. This significantly reduces the need for human labor in designing task-specific models. These advantages become even more evident as the number of tasks served by the LM scales up. Motivated by the strengths of prompting, we are the first to explore the potential of prompting speech LMs in the domain of speech processing. Recently, there has been a growing interest in converting speech into discrete units for language modeling. Our pioneer research demonstrates that these quantized speech units are highly versatile within our unified prompting framework. Not only can they serve as class labels, but they also contain rich phonetic information that can be re-synthesized back into speech signals for speech generation tasks. Specifically, we reformulate speech processing tasks into speech-to-unit generation tasks. As a result, we can seamlessly integrate tasks such as speech classification, sequence generation, and speech generation within a single, unified prompting framework. The experiment results show that the prompting method can achieve competitive performance compared to the strong fine-tuning method based on self-supervised learning models with a similar number of trainable parameters. The prompting method also shows promising results in the few-shot setting. Moreover, with the advanced speech LMs coming into the stage, the proposed prompting framework attains great potential.
翻訳日:2024-08-26 15:00:47 公開日:2024-08-23
# カルフ行動モニタリングのための深層学習法と確立法の比較

A Comparison of Deep Learning and Established Methods for Calf Behaviour Monitoring ( http://arxiv.org/abs/2408.13041v1 )

ライセンス: Link先を確認
Oshana Dissanayake, Lucile Riaboff, Sarah E. McPherson, Emer Kennedy, Pádraig Cunningham, (参考訳) 近年,ウェアラブルセンサのデータを用いた人間の行動認識の研究が著しく進展している。 この技術は家畜科学における動物福祉の文脈にも可能性を持っている。 本稿では,動物活動の認識に関する研究について報告する。 このデータは、ホルスタインとジャージーの子牛が装着した首輪に装着した加速度センサーが、病気やストレスを示す行動の変化を検出することを目的としている。 行動の変化を検出する上で重要な要件は、飲酒、ランニング、ウォーキングなどのクラスにアクティビティを分類できることである。 機械学習の用語では、これは時系列分類のタスクであり、近年ではRocketファミリーの手法がこの分野の最先端技術として登場している。 私たちは30匹の子牛から27時間以上のラベル付き時系列データを収集しています。 このデータをベースラインとして使用し、6クラスの分類タスクでRocketのパフォーマンスを示す。 そして,これを時系列分類の有望な手法として提案されている11のディープラーニング(DL)手法の性能と比較した。 関連分野におけるDLの成功を考えると、これらの手法もここでもうまく機能することが期待できる。 驚いたことに、DLメソッドが正しく設定されていることを保証するために注意を払っているにもかかわらず、どちらもRocketのパフォーマンスにマッチしない。 Rocketが素晴らしい成功を収めた理由の1つとして、より単純な分類フレームワークにおいて、DLモデルのデータをエンコーディングする利点がある、という説明がある。

In recent years, there has been considerable progress in research on human activity recognition using data from wearable sensors. This technology also has potential in the context of animal welfare in livestock science. In this paper, we report on research on animal activity recognition in support of welfare monitoring. The data comes from collar-mounted accelerometer sensors worn by Holstein and Jersey calves, the objective being to detect changes in behaviour indicating sickness or stress. A key requirement in detecting changes in behaviour is to be able to classify activities into classes, such as drinking, running or walking. In Machine Learning terms, this is a time-series classification task, and in recent years, the Rocket family of methods have emerged as the state-of-the-art in this area. We have over 27 hours of labelled time-series data from 30 calves for our analysis. Using this data as a baseline, we present Rocket's performance on a 6-class classification task. Then, we compare this against the performance of 11 Deep Learning (DL) methods that have been proposed as promising methods for time-series classification. Given the success of DL in related areas, it is reasonable to expect that these methods will perform well here as well. Surprisingly, despite taking care to ensure that the DL methods are configured correctly, none of them match Rocket's performance. A possible explanation for the impressive success of Rocket is that it has the data encoding benefits of DL models in a much simpler classification framework.
翻訳日:2024-08-26 15:00:47 公開日:2024-08-23
# 点集合上の離散・混合変数最適化のためのCMA-ES

CMA-ES for Discrete and Mixed-Variable Optimization on Sets of Points ( http://arxiv.org/abs/2408.13046v1 )

ライセンス: Link先を確認
Kento Uchida, Ryoki Hamano, Masahiro Nomura, Shota Saito, Shinichi Shirakawa, (参考訳) 離散的で混合変数の最適化問題は、いくつかの現実世界の応用に現れている。 混合変数最適化の研究の多くは整数変数と連続変数の混合を考慮しており、連続最適化法の最適化性能を混合整数最適化に継承するためにいくつかの整数ハンドリングが開発されている。 ある応用において、許容可能な解は、可分部分空間内の可能な点を選択することによって与えられる。 本稿では,点集合上でのCMA-ESと呼ばれる共分散行列適応進化戦略(CMA-ES)を拡張した最適化手法を提案する。 CMA-ES-SoPは、CMA-ESの効果的な整数処理技術である、特定の非最適点への早めの収束を防止するために、隣接点の生成確率を維持するマージン補正を組み込んでいる。 さらに、固定マージン値のマージン補正は、隣接点の一部のマージン確率を必要以上に増加させる傾向があるため、CMA-ES-SoPは目標マージン値を適応的に更新し、マージン確率の平均を予め定義されたターゲット確率に近づける。 数値シミュレーションにより、CMA-ES-SoPは点集合の最適化に成功し、単純CMA-ESは初期収束のために最適化に失敗した。

Discrete and mixed-variable optimization problems have appeared in several real-world applications. Most of the research on mixed-variable optimization considers a mixture of integer and continuous variables, and several integer handlings have been developed to inherit the optimization performance of the continuous optimization methods to mixed-integer optimization. In some applications, acceptable solutions are given by selecting possible points in the disjoint subspaces. This paper focuses on the optimization on sets of points and proposes an optimization method by extending the covariance matrix adaptation evolution strategy (CMA-ES), termed the CMA-ES on sets of points (CMA-ES-SoP). The CMA-ES-SoP incorporates margin correction that maintains the generation probability of neighboring points to prevent premature convergence to a specific non-optimal point, which is an effective integer-handling technique for CMA-ES. In addition, because margin correction with a fixed margin value tends to increase the marginal probabilities for a portion of neighboring points more than necessary, the CMA-ES-SoP updates the target margin value adaptively to make the average of the marginal probabilities close to a predefined target probability. Numerical simulations demonstrated that the CMA-ES-SoP successfully optimized the optimization problems on sets of points, whereas the naive CMA-ES failed to optimize them due to premature convergence.
翻訳日:2024-08-26 15:00:47 公開日:2024-08-23
# G3FA:顔アニメーションのための幾何学誘導型GAN

G3FA: Geometry-guided GAN for Face Animation ( http://arxiv.org/abs/2408.13049v1 )

ライセンス: Link先を確認
Alireza Javanmardi, Alain Pagani, Didier Stricker, (参考訳) 人間の顔画像のアニメーションは、運転ビデオの顔の動きを模倣する自然な方法で、望ましいソースIDを合成することを目的としている。 この文脈において、ジェネレーティブ・アドバイサル・ネットワークは、単一ソース画像を用いたリアルタイム顔再現において顕著な可能性を示したが、グラフィックベースのアプローチと比較して、幾何整合性に制限されている。 本稿では、この制限に対処するために、顔アニメーション(G3FA)のための幾何学誘導型GANを提案する。 提案手法は,2次元画像のみを用いた顔アニメーションモデルに3次元情報を取り入れることを可能にし,音声頭部合成モデルの画像生成能力を向上させる。 我々は,3次元顔形状特性の抽出に逆レンダリング技術を統合し,重み付き平均識別器のアンサンブルによりジェネレータへのフィードバックループを改善した。 顔再現モデルでは、2次元の運動ワープを利用して運動力学を捉えるとともに、直交光線サンプリングとボリュームレンダリング技術を用いて究極の視覚出力を生成する。 G3FAの性能を評価するため,VoxCeleb2とTalkingHeadベンチマークを用いて様々な評価プロトコルを用いた総合実験を行い,提案手法の有効性を最先端のリアルタイム顔アニメーション法と比較した。

Animating human face images aims to synthesize a desired source identity in a natural-looking way mimicking a driving video's facial movements. In this context, Generative Adversarial Networks have demonstrated remarkable potential in real-time face reenactment using a single source image, yet are constrained by limited geometry consistency compared to graphic-based approaches. In this paper, we introduce Geometry-guided GAN for Face Animation (G3FA) to tackle this limitation. Our novel approach empowers the face animation model to incorporate 3D information using only 2D images, improving the image generation capabilities of the talking head synthesis model. We integrate inverse rendering techniques to extract 3D facial geometry properties, improving the feedback loop to the generator through a weighted average ensemble of discriminators. In our face reenactment model, we leverage 2D motion warping to capture motion dynamics along with orthogonal ray sampling and volume rendering techniques to produce the ultimate visual output. To evaluate the performance of our G3FA, we conducted comprehensive experiments using various evaluation protocols on VoxCeleb2 and TalkingHead benchmarks to demonstrate the effectiveness of our proposed framework compared to the state-of-the-art real-time face animation methods.
翻訳日:2024-08-26 15:00:47 公開日:2024-08-23
# 貴金属カプセル化による超電導回路の表面酸化物の除去

Eliminating Surface Oxides of Superconducting Circuits with Noble Metal Encapsulation ( http://arxiv.org/abs/2408.13051v1 )

ライセンス: Link先を確認
Ray D. Chang, Nana Shumiya, Russell A. McLellan, Yifan Zhang, Matthew P. Bland, Faranak Bahrami, Junsik Mun, Chenyu Zhou, Kim Kisslinger, Guangming Cheng, Alexander C. Pakpour-Tabrizi, Nan Yao, Yimei Zhu, Mingzhao Liu, Robert J. Cava, Sarang Gopalakrishnan, Andrew A. Houck, Nathalie P. de Leon, (参考訳) 超伝導量子ビットの寿命は誘電損失によって制限され、誘電損失の主な原因は超伝導金属表面に存在するネイティブ酸化物である。 具体的には、タンタルベースの超伝導量子ビットは記録的な寿命で実証されてきたが、主な損失源は酸化タンタル表面に存在する2レベル系(TLS)の存在である。 ここでは, タンタルを天然酸化物を形成しない貴金属でカプセル化することにより, 酸化防止戦略を示す。 真空を破る前に数ナノメートルのAuまたはAuPd合金を堆積することにより,タンタル酸化物の生成を完全に抑制する。 超伝導共振器のマイクロ波損失測定により、貴金属は酸化が完全に抑制された厚さで、素タンタルの80%以上の超伝導ギャップを有することが判明した。 減算エッチングにより作製した共振器の損失は側壁の酸化物が支配しており, 超伝導量子ビットの表面TLS損失を除去するための有望な戦略として, 添加による全表面カプセル化が示唆された。

The lifetime of superconducting qubits is limited by dielectric loss, and a major source of dielectric loss is the native oxide present at the surface of the superconducting metal. Specifically, tantalum-based superconducting qubits have been demonstrated with record lifetimes, but a major source of loss is the presence of two-level systems (TLSs) in the surface tantalum oxide. Here, we demonstrate a strategy for avoiding oxide formation by encapsulating the tantalum with noble metals that do not form native oxide. By depositing a few nanometers of Au or AuPd alloy before breaking vacuum, we completely suppress tantalum oxide formation. Microwave loss measurements of superconducting resonators reveal that the noble metal is proximitized, with a superconducting gap over 80% of the bare tantalum at thicknesses where the oxide is fully suppressed. We find that losses in resonators fabricated by subtractive etching are dominated by oxides on the sidewalls, suggesting total surface encapsulation by additive fabrication as a promising strategy for eliminating surface oxide TLS loss in superconducting qubits.
翻訳日:2024-08-26 15:00:47 公開日:2024-08-23
# cc-DRL:モーフィング擬似翼の深部強化学習飛行制御設計

cc-DRL: a Convex Combined Deep Reinforcement Learning Flight Control Design for a Morphing Quadrotor ( http://arxiv.org/abs/2408.13054v1 )

ライセンス: Link先を確認
Tao Yang, Huai-Ning Wu, Jun-Wei Wang, (参考訳) 一般的な四重奏法と比較して、モーフィング四重奏法の形状変化は、より優れた飛行性能を持つが、より複雑な飛行力学をもたらす。 一般に、これらの複雑な飛行力学を記述する正確な数学的モデルを確立するのは非常に困難または不可能である。 そこで本研究では, モデルフリー制御技術(例えば, 深部強化学習, DRL)と凸結合(CC)技術を組み合わせて, 4本のアームロッドの長さ変化によって形状変化が生じるモーフィング四脚のクラスの位置と姿勢に対する凸結合型DRL(cc-DRL)飛行制御アルゴリズムを提案する。 提案したcc-DRL飛行制御アルゴリズムでは、モデルフリーのDRLアルゴリズムである近似ポリシー最適化アルゴリズムを用いて、選択された代表アーム長モードの最適飛行制御法をオフラインで訓練し、凸結合法によりcc-DRL飛行制御スキームを構築する。 最後に,提案した飛行制御アルゴリズムの有効性と有用性を示すシミュレーション結果を示す。

In comparison to common quadrotors, the shape change of morphing quadrotors endows it with a more better flight performance but also results in more complex flight dynamics. Generally, it is extremely difficult or even impossible for morphing quadrotors to establish an accurate mathematical model describing their complex flight dynamics. To figure out the issue of flight control design for morphing quadrotors, this paper resorts to a combination of model-free control techniques (e.g., deep reinforcement learning, DRL) and convex combination (CC) technique, and proposes a convex-combined-DRL (cc-DRL) flight control algorithm for position and attitude of a class of morphing quadrotors, where the shape change is realized by the length variation of four arm rods. In the proposed cc-DRL flight control algorithm, proximal policy optimization algorithm that is a model-free DRL algorithm is utilized to off-line train the corresponding optimal flight control laws for some selected representative arm length modes and hereby a cc-DRL flight control scheme is constructed by the convex combination technique. Finally, simulation results are presented to show the effectiveness and merit of the proposed flight control algorithm.
翻訳日:2024-08-26 15:00:47 公開日:2024-08-23
# 点数無限3次元生成のためのAtlas Gaussian Diffusion

Atlas Gaussians Diffusion for 3D Generation with Infinite Number of Points ( http://arxiv.org/abs/2408.13055v1 )

ライセンス: Link先を確認
Haitao Yang, Yuan Dong, Hanwen Jiang, Dejia Xu, Georgios Pavlakos, Qixing Huang, (参考訳) 潜伏拡散モデルを用いることで、新しい3D生成技術の開発に有効であることが証明されている。 潜伏拡散モデルを活用するために重要な課題は、潜伏空間と3次元空間を結びつける高忠実で効率的な表現を設計することである。 本稿では,フィードフォワードネイティブな3D生成のための新しい表現であるAtlas Gaussiansを紹介する。 Atlas Gaussianはローカルパッチの結合として形状を表し、各パッチは3D Gaussianをデコードできる。 特徴ベクトルの列としてパッチをパラメータ化し,特徴ベクトルから3次元ガウスを復号する学習可能な関数を設計する。 このプロセスでは、UVに基づくサンプリングを導入し、十分に大きく、理論上無限な3次元ガウス点の生成を可能にする。 大量の3Dガウスアンは、生成結果の高品質な詳細を可能にする。 さらに、表現の局所的な認識により、変換器ベースの復号処理はパッチレベルで動作し、効率性を確保する。 我々は変分オートエンコーダを訓練してAtlas Gaussian表現を学習し、その潜在空間に潜時拡散モデルを適用して3D生成を学習する。 実験により,本手法は,フィードフォワードネイティブな3D世代における先行技術よりも優れていることが示された。

Using the latent diffusion model has proven effective in developing novel 3D generation techniques. To harness the latent diffusion model, a key challenge is designing a high-fidelity and efficient representation that links the latent space and the 3D space. In this paper, we introduce Atlas Gaussians, a novel representation for feed-forward native 3D generation. Atlas Gaussians represent a shape as the union of local patches, and each patch can decode 3D Gaussians. We parameterize a patch as a sequence of feature vectors and design a learnable function to decode 3D Gaussians from the feature vectors. In this process, we incorporate UV-based sampling, enabling the generation of a sufficiently large, and theoretically infinite, number of 3D Gaussian points. The large amount of 3D Gaussians enables high-quality details of generation results. Moreover, due to local awareness of the representation, the transformer-based decoding procedure operates on a patch level, ensuring efficiency. We train a variational autoencoder to learn the Atlas Gaussians representation, and then apply a latent diffusion model on its latent space for learning 3D Generation. Experiments show that our approach outperforms the prior arts of feed-forward native 3D generation.
翻訳日:2024-08-26 15:00:47 公開日:2024-08-23
# 位置-運動量相関によるガウス量子距離論の強化

Enhancing Gaussian quantum metrology with position-momentum correlations ( http://arxiv.org/abs/2408.13060v1 )

ライセンス: Link先を確認
João C. P. Porto, Lucas S. Marinho, Pedro R. Dieguez, Irismar G. da Paz, Carlos H. S. Vieira, (参考訳) 量子メートル法は、いくつかの量子技術において大きな改善をもたらす。 本研究では,初期位置-運動量相関(PM)によるガウス量子メトロジープロトコルを提案する。 本稿では,PM相関に基づくQFI(Quantum Fisher Information)と純度(Pureity)のダイナミクスを調査するためのプローブとして相関ガウス波パケットを用い,PM相関を推定する方法を実証し,さらに,量子温度測定を強化するリソースなどの潜在的な応用を解き放つ方法を示した。 低温環境下では,元の系が非零初期相関(関連するガウス状態)を示す場合,周囲環境の温度測定が向上することがわかった。 さらに, 有効環境結合と有効温度を推定する過程における純度損失とQFIの利得の関係について検討した。

Quantum metrology offers significant improvements in several quantum technologies. In this work, we propose a Gaussian quantum metrology protocol assisted by initial position-momentum correlations (PM). We employ a correlated Gaussian wave packet as a probe to examine the dynamics of Quantum Fisher Information (QFI) and purity based on PM correlations to demonstrate how to estimate the PM correlations and, more importantly, to unlock its potential applications such as a resource to enhance quantum thermometry. In the low-temperature regime, we find an improvement in the thermometry of the surrounding environment when the original system exhibits a non-null initial correlation (correlated Gaussian state). In addition, we explore the connection between the loss of purity and the gain in QFI during the process of estimating the effective environment coupling and its effective temperature.
翻訳日:2024-08-26 15:00:47 公開日:2024-08-23
# トランザクション時間に有利な実験的量子トークン

Experimental practical quantum tokens with transaction time advantage ( http://arxiv.org/abs/2408.13063v1 )

ライセンス: Link先を確認
Yang-Fan Jiang, Adrian Kent, Damián Pitalúa-García, Xiaochen Yao, Xiaohan Chen, Jia Huang, George Cowperthwaite, Qibin Zheng, Hao Li, Lixing You, Yang Liu, Qiang Zhang, Jian-Wei Pan, (参考訳) 量子マネー(quantum money)は、量子情報科学における最初の発明であり、非鍛造性、ユーザプライバシ、即時検証を同時に達成することで、古典的な金銭よりも有望な利点である。 しかし、標準的な量子マネーは、技術的に極めて困難な量子メモリと長距離量子通信に依存している。 量子"Sマネー"トークンは、これらの技術的要件を排除し、偽造性、ユーザのプライバシ、即時検証を保存する。 ここでは, 誤り, 損失, 実験不完全にもかかわらず, 安全性が証明された量子S-トークンの完全な実験例を報告する。 高効率88.24%の1光子源は、量子トークン生成の損失から生じる任意の多光子攻撃から保護される。 短距離量子通信の後、トークンは古典的なビットを使用して保存され、トランザクションされ、検証される。 都市内2.77kmと都市間60.54kmの光ファイバーネットワークに対するトランザクション時間優位性を,古典的クロスチェック方式と比較して示す。 我々の実装は、金融取引やネットワーク制御といった、高いセキュリティ、プライバシ、最小のトランザクション時間を必要とするアプリケーションに対する量子Sトークンの実用性を示している。 これはまた、相対論的暗号における量子時間優位性の最初の実証であり、量子物理学と相対論的物理学を同時に考慮する暗号化能力の強化を示している。

Quantum money is the first invention in quantum information science, promising advantages over classical money by simultaneously achieving unforgeability, user privacy, and instant validation. However, standard quantum money relies on quantum memories and long-distance quantum communication, which are technologically extremely challenging. Quantum "S-money" tokens eliminate these technological requirements while preserving unforgeability, user privacy, and instant validation. Here, we report the first full experimental demonstration of quantum S-tokens, proven secure despite errors, losses and experimental imperfections. The heralded single-photon source with a high system efficiency of 88.24% protects against arbitrary multi-photon attacks arising from losses in the quantum token generation. Following short-range quantum communication, the token is stored, transacted, and verified using classical bits. We demonstrate a transaction time advantage over intra-city 2.77 km and inter-city 60.54 km optical fibre networks, compared with optimal classical cross-checking schemes. Our implementation demonstrates the practicality of quantum S-tokens for applications requiring high security, privacy and minimal transaction times, like financial trading and network control. It is also the first demonstration of a quantitative quantum time advantage in relativistic cryptography, showing the enhanced cryptographic power of simultaneously considering quantum and relativistic physics.
翻訳日:2024-08-26 15:00:47 公開日:2024-08-23
# SIMPLE:異方性データからの等方性MRI再生のための同時多面自己監督学習

SIMPLE: Simultaneous Multi-Plane Self-Supervised Learning for Isotropic MRI Restoration from Anisotropic Data ( http://arxiv.org/abs/2408.13065v1 )

ライセンス: Link先を確認
Rotem Benisty, Yevgenia Shteynman, Moshe Porat, Anat Illivitzki, Moti Freiman, (参考訳) MRIは様々な腹部疾患や異常の診断に重要である。 従来のMRIスキャンでは、技術的制約により異方性データが得られることが多く、空間次元によって解像度が変化し、診断精度と体積分析が制限される。 超解像(SR)技術は、異方性データから等方性高解像度画像を再構成することで、これらの制限に対処することを目的としている。 しかし、現在のSR法はしばしば間接写像と限られた訓練データに依存し、真の3次元等方性を達成するのではなく、主に2次元の改善に焦点を当てている。 異方性データからの等方性MRI復元のための同時多平面自己監督学習手法SIMPLEを導入する。 本手法は, 既往の異方性臨床データを異なる平面で取得し, 模擬下水処理の必要性を回避している。 MRIデータの本質的な3次元の性質を考慮することで、SIMPLEは平面スライスを単に改善するのではなく、現実的な等方性データ生成を保証する。 このアプローチの柔軟性は、複数のコントラストタイプや、臨床環境で一般的に使用される取得方法に拡張することができる。 実験の結果、SIMPLEはKernel Inception Distance(KID)と半定量的にラジオロジカル評価により、最先端の手法よりも優れていることがわかった。 生成した等方体積は、より正確なボリューム分析と3D再構成を促進し、臨床診断能力の大幅な改善を約束する。

Magnetic resonance imaging (MRI) is crucial in diagnosing various abdominal conditions and anomalies. Traditional MRI scans often yield anisotropic data due to technical constraints, resulting in varying resolutions across spatial dimensions, which limits diagnostic accuracy and volumetric analysis. Super-resolution (SR) techniques aim to address these limitations by reconstructing isotropic high-resolution images from anisotropic data. However, current SR methods often rely on indirect mappings and limited training data, focusing mainly on two-dimensional improvements rather than achieving true three-dimensional isotropy. We introduce SIMPLE, a Simultaneous Multi-Plane Self-Supervised Learning approach for isotropic MRI restoration from anisotropic data. Our method leverages existing anisotropic clinical data acquired in different planes, bypassing the need for simulated downsampling processes. By considering the inherent three-dimensional nature of MRI data, SIMPLE ensures realistic isotropic data generation rather than solely improving through-plane slices. This approach flexibility allows it to be extended to multiple contrast types and acquisition methods commonly used in clinical settings. Our experiments show that SIMPLE outperforms state-of-the-art methods both quantitatively using the Kernel Inception Distance (KID) and semi-quantitatively through radiologist evaluations. The generated isotropic volume facilitates more accurate volumetric analysis and 3D reconstructions, promising significant improvements in clinical diagnostic capabilities.
翻訳日:2024-08-26 15:00:47 公開日:2024-08-23
# 音声テキストコントラストゼロショット学習におけるクラス分離可能性の落とし穴について

On Class Separability Pitfalls In Audio-Text Contrastive Zero-Shot Learning ( http://arxiv.org/abs/2408.13068v1 )

ライセンス: Link先を確認
Tiago Tavares, Fabio Ayres, Zhepei Wang, Paris Smaragdis, (参考訳) 近年の音声テキストのクロスモーダル・コントラスト学習の進歩は、ゼロショット学習への可能性を示している。 この可能性の1つは、事前訓練されたバックボーンニューラルネットワークからアイテム類似性をどちらの領域でも計算できるクロスモーダル空間にアイテム埋め込みを投影することである。 このプロセスは、バックボーンネットワークの強い単調な事前トレーニングと、プロジェクタのためのデータ集約的なトレーニングタスクに依存している。 この2つのプロセスは、事前学習における教師あり学習の使用や、ゼロショット学習評価からラベルを用いたクロスモーダル投影の意図しない訓練から生じる非意図的なデータ漏洩によってバイアスを受けることができる。 本研究では, ゼロショット学習精度のかなりの部分は, 音声とテキストのバックボーンから受け継がれた強度によるものであり, クロスモーダル領域では学習されず, モーダル領域から他の領域へ伝達されないことを示す。

Recent advances in audio-text cross-modal contrastive learning have shown its potential towards zero-shot learning. One possibility for this is by projecting item embeddings from pre-trained backbone neural networks into a cross-modal space in which item similarity can be calculated in either domain. This process relies on a strong unimodal pre-training of the backbone networks, and on a data-intensive training task for the projectors. These two processes can be biased by unintentional data leakage, which can arise from using supervised learning in pre-training or from inadvertently training the cross-modal projection using labels from the zero-shot learning evaluation. In this study, we show that a significant part of the measured zero-shot learning accuracy is due to strengths inherited from the audio and text backbones, that is, they are not learned in the cross-modal domain and are not transferred from one modality to another.
翻訳日:2024-08-26 15:00:47 公開日:2024-08-23
# 大規模言語モデルによるIoTベースのヘルスケアアラートシステムの誘導

Guiding IoT-Based Healthcare Alert Systems with Large Language Models ( http://arxiv.org/abs/2408.13071v1 )

ライセンス: Link先を確認
Yulan Gao, Ziqiang Ye, Ming Xiao, Yue Xiao, Dong In Kim, (参考訳) 医療アラートシステム(HAS)は、人工知能(AI)、IoT(Internet of Things)技術の進歩、健康意識の向上など、急速に進化している。 パーソナライズされたヘルスアラートの正確さと、リソースに制約されたHAS環境における厳格なプライバシー保護のバランス。 この問題に対処するために,大規模言語モデル (LLM) をHASに組み込んだ一様フレームワーク LLM-HAS を導入し,精度を大幅に向上し,ユーザのプライバシを確保し,パーソナライズされたヘルスサービスを向上するとともに,ユーザに対する主観的体験品質 (QoE) を向上させる。 我々の革新的なフレームワークは、LLMで拡張されたMixture of Experts(MoE)アプローチを利用して、テキストによるジョブ記述の追加から、ユーザのパーソナライズされた好みと潜在的な健康リスクを分析する。 この分析は、正確な健康警告を行うための専門的なDeep Reinforcement Learning (DDPG)の専門家の選択をガイドする。 さらに、LDM-HASは、DDPGの微調整を可能にするだけでなく、ユーザのエンゲージメントも深め、健康管理戦略の正確性とパーソナライズを両立させることができる。 シミュレーションの結果,LLM-HASフレームワークの有効性が検証され,ジェネレーティブAI(GAI)を用いた高精度で信頼性の高いアラートを提供するための画期的なアプローチとしての可能性を強調した。

Healthcare alert systems (HAS) are undergoing rapid evolution, propelled by advancements in artificial intelligence (AI), Internet of Things (IoT) technologies, and increasing health consciousness. Despite significant progress, a fundamental challenge remains: balancing the accuracy of personalized health alerts with stringent privacy protection in HAS environments constrained by resources. To address this issue, we introduce a uniform framework, LLM-HAS, which incorporates Large Language Models (LLM) into HAS to significantly boost the accuracy, ensure user privacy, and enhance personalized health service, while also improving the subjective quality of experience (QoE) for users. Our innovative framework leverages a Mixture of Experts (MoE) approach, augmented with LLM, to analyze users' personalized preferences and potential health risks from additional textual job descriptions. This analysis guides the selection of specialized Deep Reinforcement Learning (DDPG) experts, tasked with making precise health alerts. Moreover, LLM-HAS can process Conversational User Feedback, which not only allows fine-tuning of DDPG but also deepen user engagement, thereby enhancing both the accuracy and personalization of health management strategies. Simulation results validate the effectiveness of the LLM-HAS framework, highlighting its potential as a groundbreaking approach for employing generative AI (GAI) to provide highly accurate and reliable alerts.
翻訳日:2024-08-26 15:00:47 公開日:2024-08-23
# IntelliCare:大規模言語モデルによる患者レベル知識の分散化による医療分析の改善

IntelliCare: Improving Healthcare Analysis with Variance-Controlled Patient-Level Knowledge from Large Language Models ( http://arxiv.org/abs/2408.13073v1 )

ライセンス: Link先を確認
Zhihao Yu, Yujie Jin, Yongxin Xu, Xu Chu, Yasha Wang, Junfeng Zhao, (参考訳) 深層学習の先駆的な手法は電子健康記録(EHR)データを解析する上で大きな進歩を遂げてきたが、限られたデータから様々な医療コードのセマンティクスを完全に捉えるのに苦労することが多い。 LLM(Large Language Models)からの外部知識の統合は、医療予測を改善するための有望な道を示す。 しかし LLM 分析は曖昧さの問題や矛盾の問題により, 有効利用の妨げとなる可能性がある。 これらの課題に対処するため、我々はLLMを活用して高品質な患者レベルの外部知識を提供し、既存のEHRモデルを強化する新しいフレームワークであるIntelliCareを提案する。 具体的には、IntelliCareは患者のコホートを特定し、タスク関連統計情報を用いてLCMの理解と生成を強化し、あいまいさ問題を効果的に軽減する。 さらに、LEM由来の知識をハイブリッドアプローチで洗練し、複数の分析結果を生成し、EHRモデルとパープレキシティ尺度の両方を用いてそれらを校正する。 2つの大規模EHRデータセット間での3つの臨床予測タスクに関する実験的評価は、IntelliCareが既存のメソッドに大幅なパフォーマンス改善を提供し、パーソナライズされたヘルスケア予測と意思決定支援システムを前進させる可能性を強調していることを示している。

While pioneering deep learning methods have made great strides in analyzing electronic health record (EHR) data, they often struggle to fully capture the semantics of diverse medical codes from limited data. The integration of external knowledge from Large Language Models (LLMs) presents a promising avenue for improving healthcare predictions. However, LLM analyses may exhibit significant variance due to ambiguity problems and inconsistency issues, hindering their effective utilization. To address these challenges, we propose IntelliCare, a novel framework that leverages LLMs to provide high-quality patient-level external knowledge and enhance existing EHR models. Concretely, IntelliCare identifies patient cohorts and employs task-relevant statistical information to augment LLM understanding and generation, effectively mitigating the ambiguity problem. Additionally, it refines LLM-derived knowledge through a hybrid approach, generating multiple analyses and calibrating them using both the EHR model and perplexity measures. Experimental evaluations on three clinical prediction tasks across two large-scale EHR datasets demonstrate that IntelliCare delivers significant performance improvements to existing methods, highlighting its potential in advancing personalized healthcare predictions and decision support systems.
翻訳日:2024-08-26 15:00:46 公開日:2024-08-23
# fMRI解析のための階層的時空間モデル

Hierarchical Spatio-Temporal State-Space Modeling for fMRI Analysis ( http://arxiv.org/abs/2408.13074v1 )

ライセンス: Link先を確認
Yuxiang Wei, Anees Abrol, Reihaneh Hassanzadeh, Vince Calhoun, (参考訳) 近年のディープラーニング構造化状態空間モデル,特にMambaアーキテクチャの進歩は,線形複雑性を維持しながら顕著な性能向上を示した。 本研究では,機能的磁気共鳴画像(fMRI)を用いた神経バイオマーカーの発見を目的とした,機能的時空間マンバ(FST-Mamba)モデルを提案する。 本稿では,fMRIから導出される動的機能的ネットワーク接続(dFNC)に着目し,空間情報と時間情報を個別に処理する階層型時空間マンバネットワークを提案する。 FNC行列のトポロジ的特異性を活用することで、脳ネットワーク内の個々のコンポーネント間の接続を集約し、コンポーネント間およびネットワーク間の情報の両方を捕捉するコンポーネントワイド・スケール・アグリゲーション(CVA)機構を導入する。 FNCデータをよりよく処理するために、我々は新しいコンポーネント固有の走査順序を開発する。 さらに、FNC行列の対称性を考慮して、各機能接続の相対位置を符号化する対称回転位置符号化(SymRope)を提案する。 実験結果から,脳の分類と回帰作業におけるFST-Mambaモデルの有効性が示唆された。 我々の研究は、脳発見における注意のないシーケンスモデリングの可能性を明らかにしている。

Recent advances in deep learning structured state space models, especially the Mamba architecture, have demonstrated remarkable performance improvements while maintaining linear complexity. In this study, we introduce functional spatiotemporal Mamba (FST-Mamba), a Mamba-based model designed for discovering neurological biomarkers using functional magnetic resonance imaging (fMRI). We focus on dynamic functional network connectivity (dFNC) derived from fMRI and propose a hierarchical spatiotemporal Mamba-based network that processes spatial and temporal information separately using Mamba-based encoders. Leveraging the topological uniqueness of the FNC matrix, we introduce a component-wise varied-scale aggregation (CVA) mechanism to aggregate connectivity across individual components within brain networks, enabling the model to capture both inter-component and inter-network information. To better handle the FNC data, we develop a new component-specific scanning order. Additionally, we propose symmetric rotary position encoding (SymRope) to encode the relative positions of each functional connection while considering the symmetric nature of the FNC matrix. Experimental results demonstrate significant improvements in the proposed FST-Mamba model on various brain-based classification and regression tasks. Our work reveals the substantial potential of attention-free sequence modeling in brain discovery.
翻訳日:2024-08-26 15:00:46 公開日:2024-08-23
# AEMLO: AutoEncoder-Guided Multi-Label Oversampling

AEMLO: AutoEncoder-Guided Multi-Label Oversampling ( http://arxiv.org/abs/2408.13078v1 )

ライセンス: Link先を確認
Ao Zhou, Bin Liu, Jin Wang, Kaiwei Sun, Kelin Liu, (参考訳) クラス不均衡はマルチラベル分類器の性能に大きな影響を及ぼす。 オーバーサンプリングは最も一般的なアプローチの1つで、頻度の低いラベルに関連付けられたインスタンスを拡張して、クラス分散のバランスをとる。 既存のオーバーサンプリング手法は、複製や線形補間によって合成標本の特徴ベクトルを生成し、近隣情報を通じてラベルを割り当てる。 線形補間は通常、既存のデータポイント間で新しいサンプルを生成し、それによって合成されたサンプルの多様性が不十分になり、さらにオーバーフィッティングの問題を引き起こす。 AutoEncodersのようなディープラーニングベースの手法は、より多様な複雑な合成サンプルを生成するために提案されている。 本研究では,不均衡なマルチラベルデータの処理に特化して設計されたAutoEncoder-Guided Oversampling技術であるAEMLOを紹介する。 AEMLOは2つの基本コンポーネント上に構築されている。 1つ目はエンコーダ・デコーダアーキテクチャで、入力データを低次元の特徴空間にエンコードし、その潜在表現を学習し、元の次元に戻して新しいデータを生成することができる。 2つ目は、マルチラベルシナリオのサンプリングタスクを最適化するために調整された客観的関数である。 AEMLOは、既存の最先端手法よりも優れた性能を示し、広範な実証研究を行った。

Class imbalance significantly impacts the performance of multi-label classifiers. Oversampling is one of the most popular approaches, as it augments instances associated with less frequent labels to balance the class distribution. Existing oversampling methods generate feature vectors of synthetic samples through replication or linear interpolation and assign labels through neighborhood information. Linear interpolation typically generates new samples between existing data points, which may result in insufficient diversity of synthesized samples and further lead to the overfitting issue. Deep learning-based methods, such as AutoEncoders, have been proposed to generate more diverse and complex synthetic samples, achieving excellent performance on imbalanced binary or multi-class datasets. In this study, we introduce AEMLO, an AutoEncoder-guided Oversampling technique specifically designed for tackling imbalanced multi-label data. AEMLO is built upon two fundamental components. The first is an encoder-decoder architecture that enables the model to encode input data into a low-dimensional feature space, learn its latent representations, and then reconstruct it back to its original dimension, thus applying to the generation of new data. The second is an objective function tailored to optimize the sampling task for multi-label scenarios. We show that AEMLO outperforms the existing state-of-the-art methods with extensive empirical studies.
翻訳日:2024-08-26 15:00:46 公開日:2024-08-23
# トポロジ解析によるグラフ注意ネットワークの強化に基づく多変量時系列異常検出

Multivariate Time-Series Anomaly Detection based on Enhancing Graph Attention Networks with Topological Analysis ( http://arxiv.org/abs/2408.13082v1 )

ライセンス: Link先を確認
Zhe Liu, Xiang Huang, Jingyun Zhang, Zhifeng Hao, Li Sun, Hao Peng, (参考訳) 時系列における教師なし異常検出は、手動による介入の必要性を大幅に低減するため、産業応用において不可欠である。 多変量時系列はその特徴と時間次元のために複雑に挑戦する。 従来の手法では、グラフニューラルネットワーク(GNN)やトランスフォーマーを使用して空間を解析し、RNNは時間的依存をモデル化していた。 これらの手法は1次元に狭く焦点を絞ったり、粗い特徴抽出に関わったりしており、複雑な関係や動的変化を特徴とする大規模なデータセットには不十分である。 本稿では,TopoGDNと呼ばれる多変量時系列異常検出のための拡張グラフ注意ネットワーク(GAT)上に構築された新しい時間モデルを提案する。 我々のモデルは細かな視点から時間次元と特徴次元を解析する。 まず、詳細な時間的特徴を抽出するマルチスケールの時間的畳み込みモジュールを提案する。 さらに,複数スケールのノード機能にグラフトポロジを組み込んだ複雑な機能間依存関係を管理するための拡張GATを提案する。 実験結果から,本手法が4つのデータセットのベースラインモデルを上回ることが確認され,ロバストな異常検出を必要とする分野への応用の可能性が確認された。 コードはhttps://github.com/ljj-cyber/TopoGDNで公開されている。

Unsupervised anomaly detection in time series is essential in industrial applications, as it significantly reduces the need for manual intervention. Multivariate time series pose a complex challenge due to their feature and temporal dimensions. Traditional methods use Graph Neural Networks (GNNs) or Transformers to analyze spatial while RNNs to model temporal dependencies. These methods focus narrowly on one dimension or engage in coarse-grained feature extraction, which can be inadequate for large datasets characterized by intricate relationships and dynamic changes. This paper introduces a novel temporal model built on an enhanced Graph Attention Network (GAT) for multivariate time series anomaly detection called TopoGDN. Our model analyzes both time and feature dimensions from a fine-grained perspective. First, we introduce a multi-scale temporal convolution module to extract detailed temporal features. Additionally, we present an augmented GAT to manage complex inter-feature dependencies, which incorporates graph topology into node features across multiple scales, a versatile, plug-and-play enhancement that significantly boosts the performance of GAT. Our experimental results confirm that our approach surpasses the baseline models on four datasets, demonstrating its potential for widespread application in fields requiring robust anomaly detection. The code is available at https://github.com/ljj-cyber/TopoGDN.
翻訳日:2024-08-26 14:50:54 公開日:2024-08-23
# 社会的HCIにおけるアバターの視覚的類似性 : 自己認識の増大

Avatar Visual Similarity for Social HCI: Increasing Self-Awareness ( http://arxiv.org/abs/2408.13084v1 )

ライセンス: Link先を確認
Bernhard Hilpert, Claudio Alves da Silva, Leon Christidis, Chirag Bhuvaneshwara, Patrick Gebhard, Fabrizio Nunnari, Dimitra Tsovaltzi, (参考訳) 自己認識は、社会的人間と人間の相互作用において重要な要素であり、したがって社会的HCI相互作用において重要である。 鏡やビデオ記録による自己認識の増大は、明示的な識別や暗黙的な感情的識別(親和性)のような自己認識の先行者に影響を与えるため、対面訓練において一般的である。 しかし、仮想アバターを用いた仮想トレーニングでは、自己意識のネガティブな影響を避けるために、例えば、類似性を調整することが可能である。 アバターの視覚的類似性は、高コストに関連するオープンな問題である。 自己認識にアバターを用いることの付加価値を活用するためには,どの機能を操作する必要があるのか,どの程度の類似性が必要かを理解することが重要である。 本稿では,仮想トレーニング環境におけるアバターの視覚的類似性と自己認識の増大との関係について検討する。 視覚的類似性を人間の識別のために知覚的に重要な顔の特徴に基づいて定義し,仮想アバターの視覚的類似性を体系的に操作し,自己認識を支援する理論に基づく方法論を開発した。 参加者と視覚的類似度が異なる仮想アバターの3つのパーソナライズされたバージョン(弱,中,強い顔の特徴操作)が作成された。 対象内調査(N=33)において、類似度が知覚類似性、明示的識別、暗黙的感情識別(親和性)に及ぼす影響を調べた。 その結果, 弱類似性操作と, 強い操作と無作為なアバターとの間に有意な差異が認められた。 アバターの視覚的類似度の増加は、仮想環境における自己認識の先行者に影響を与える。

Self-awareness is a critical factor in social human-human interaction and, hence, in social HCI interaction. Increasing self-awareness through mirrors or video recordings is common in face-to-face trainings, since it influences antecedents of self-awareness like explicit identification and implicit affective identification (affinity). However, increasing self-awareness has been scarcely examined in virtual trainings with virtual avatars, which allow for adjusting the similarity, e.g. to avoid negative effects of self-consciousness. Automatic visual similarity in avatars is an open issue related to high costs. It is important to understand which features need to be manipulated and which degree of similarity is necessary for self-awareness to leverage the added value of using avatars for self-awareness. This article examines the relationship between avatar visual similarity and increasing self-awareness in virtual training environments. We define visual similarity based on perceptually important facial features for human-human identification and develop a theory-based methodology to systematically manipulate visual similarity of virtual avatars and support self-awareness. Three personalized versions of virtual avatars with varying degrees of visual similarity to participants were created (weak, medium and strong facial features manipulation). In a within-subject study (N=33), we tested effects of degree of similarity on perceived similarity, explicit identification and implicit affective identification (affinity). Results show significant differences between the weak similarity manipulation, and both the strong manipulation and the random avatar for all three antecedents of self-awareness. An increasing degree of avatar visual similarity influences antecedents of self-awareness in virtual environments.
翻訳日:2024-08-26 14:50:54 公開日:2024-08-23
# インスタンス知識と深度知識によって強化されたマップフリーな視覚的再局在

Map-Free Visual Relocalization Enhanced by Instance Knowledge and Depth Knowledge ( http://arxiv.org/abs/2408.13085v1 )

ライセンス: Link先を確認
Mingyu Xiao, Runze Chen, Haiyong Luo, Fang Zhao, Juan Wang, Xuepeng Ma, (参考訳) 地図のない再ローカライズ技術は、自律ナビゲーションや拡張現実のアプリケーションには不可欠だが、事前に構築された地図に依存することは現実的ではないことが多い。 マッチング方法の制限や、単眼画像のスケールの欠如により、大きな課題に直面している。 これらの問題は、実際のシナリオでかなりの回転誤差とメートル法誤差、さらにはローカライゼーション障害につながる。 大きな一致誤差は全体の再局在過程に大きな影響を与え、回転精度と翻訳精度の両方に影響を及ぼす。 カメラ自体固有の制限のため、単一の画像からメートル法スケールを復元することが重要であり、これは翻訳エラーに大きな影響を及ぼす。 これらの課題に対処するために,事例知識と深度知識によって強化された地図のない再局在化手法を提案する。 インスタンスベースのマッチング情報を利用して、グローバルなマッチング結果を改善することにより、異なるオブジェクト間のミスマッチの可能性を大幅に低減する。 インスタンス知識の堅牢さは、特徴点マッチングモデルが関連する領域に集中し、マッチング精度を高めるのに役立つ。 さらに,1つの画像から推定した距離深度を用いて,距離誤差を低減し,スケール回復精度を向上させる。 大規模な翻訳誤差と回転誤差を緩和する手法を統合することにより,地図のない再ローカライゼーション手法において優れた性能を示す。

Map-free relocalization technology is crucial for applications in autonomous navigation and augmented reality, but relying on pre-built maps is often impractical. It faces significant challenges due to limitations in matching methods and the inherent lack of scale in monocular images. These issues lead to substantial rotational and metric errors and even localization failures in real-world scenarios. Large matching errors significantly impact the overall relocalization process, affecting both rotational and translational accuracy. Due to the inherent limitations of the camera itself, recovering the metric scale from a single image is crucial, as this significantly impacts the translation error. To address these challenges, we propose a map-free relocalization method enhanced by instance knowledge and depth knowledge. By leveraging instance-based matching information to improve global matching results, our method significantly reduces the possibility of mismatching across different objects. The robustness of instance knowledge across the scene helps the feature point matching model focus on relevant regions and enhance matching accuracy. Additionally, we use estimated metric depth from a single image to reduce metric errors and improve scale recovery accuracy. By integrating methods dedicated to mitigating large translational and rotational errors, our approach demonstrates superior performance in map-free relocalization techniques.
翻訳日:2024-08-26 14:50:54 公開日:2024-08-23
# 機械学習回帰タスクの予測不確実性を検証するための区間基準の信頼性について

On the good reliability of an interval-based metric to validate prediction uncertainty for machine learning regression tasks ( http://arxiv.org/abs/2408.13089v1 )

ライセンス: Link先を確認
Pascal Pernot, (参考訳) 本研究は,不確実性の平均校正を予測するための(より)信頼性の高い検証手法に対する機会論的アプローチを示す。 分散に基づくキャリブレーション指標(ZMS, NLL, RCE...)は不確かさと誤差分布の重みの存在に非常に敏感であることを考えると、間隔ベースの測度であるPICP(Prediction Interval Coverage Probability)へのシフトが提案される。 1)zスコアの集合は、学生の-$t(\nu)$分布、$\nu$は自由度数、(2)95$\%$予測間隔の正確な推定は、$\nu>3$の単純な2$\sigma$ルールで得られる。 全体として、ZMSテストよりも20$\%$のデータセットをテストできる。 条件キャリブレーションもPICP法を用いて評価する。

This short study presents an opportunistic approach to a (more) reliable validation method for prediction uncertainty average calibration. Considering that variance-based calibration metrics (ZMS, NLL, RCE...) are quite sensitive to the presence of heavy tails in the uncertainty and error distributions, a shift is proposed to an interval-based metric, the Prediction Interval Coverage Probability (PICP). It is shown on a large ensemble of molecular properties datasets that (1) sets of z-scores are well represented by Student's-$t(\nu)$ distributions, $\nu$ being the number of degrees of freedom; (2) accurate estimation of 95 $\%$ prediction intervals can be obtained by the simple $2\sigma$ rule for $\nu>3$; and (3) the resulting PICPs are more quickly and reliably tested than variance-based calibration metrics. Overall, this method enables to test 20 $\%$ more datasets than ZMS testing. Conditional calibration is also assessed using the PICP approach.
翻訳日:2024-08-26 14:50:54 公開日:2024-08-23
# テキストマイニング技術と分類モデルを用いた子どもの発達事実と神話の分析

Analysis of child development facts and myths using text mining techniques and classification models ( http://arxiv.org/abs/2408.13091v1 )

ライセンス: Link先を確認
Mehedi Tajrian, Azizur Rahman, Muhammad Ashad Kabir, Md Rafiqul Islam, (参考訳) インターネット上での誤報の急速な普及は、信頼できる情報を求める個人、特に子育てに関する両親の意思決定過程を複雑にしている。 この誤報は、神話に基づく子供の不適切な扱いなど、有害な結果をもたらす可能性がある。 これまでの研究では、児童虐待の予測にテキストマイニング技術を用いてきたが、児童発生神話や事実の分析にはギャップがあった。 本研究では,子育てに関する神話と事実を識別するためにテキストマイニング手法と分類モデルを適用し,新たに収集したWebサイトからのデータを活用することによって,このギャップを解消する。 研究手法にはいくつかの段階があった。 まず、テキストマイニング技術を用いてデータを前処理し、精度を向上した。 その後、構造化されたデータは、6つの堅牢な機械学習(ML)分類器と1つのディープラーニング(DL)モデルを用いて分析され、3つの異なるトレーニングテストスプリットでパフォーマンスを評価するために2つの特徴抽出技術が適用された。 結果の信頼性を確保するため,k-fold法とLeft-one-out法の両方を用いてクロスバリデーションを行った。 テストした分類モデルの中で、ロジスティック回帰(LR)が最も精度が高く、Bag-of-Words(BoW)特徴抽出技術で90%の精度を達成した。 LRは例外的な速度と効率で、ステートメント毎のテスト時間(0.97マイクロ秒)を低く保っている。 これらの結果から, LRはBoWと組み合わせることで, 子育て情報の正確な分類に有効であることが示唆された。

The rapid dissemination of misinformation on the internet complicates the decision-making process for individuals seeking reliable information, particularly parents researching child development topics. This misinformation can lead to adverse consequences, such as inappropriate treatment of children based on myths. While previous research has utilized text-mining techniques to predict child abuse cases, there has been a gap in the analysis of child development myths and facts. This study addresses this gap by applying text mining techniques and classification models to distinguish between myths and facts about child development, leveraging newly gathered data from publicly available websites. The research methodology involved several stages. First, text mining techniques were employed to pre-process the data, ensuring enhanced accuracy. Subsequently, the structured data was analysed using six robust Machine Learning (ML) classifiers and one Deep Learning (DL) model, with two feature extraction techniques applied to assess their performance across three different training-testing splits. To ensure the reliability of the results, cross-validation was performed using both k-fold and leave-one-out methods. Among the classification models tested, Logistic Regression (LR) demonstrated the highest accuracy, achieving a 90% accuracy with the Bag-of-Words (BoW) feature extraction technique. LR stands out for its exceptional speed and efficiency, maintaining low testing time per statement (0.97 microseconds). These findings suggest that LR, when combined with BoW, is effective in accurately classifying child development information, thus providing a valuable tool for combating misinformation and assisting parents in making informed decisions.
翻訳日:2024-08-26 14:50:54 公開日:2024-08-23
# オフラインマルチエージェント強化学習のための拡散型エピソード増強

Diffusion-based Episodes Augmentation for Offline Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2408.13092v1 )

ライセンス: Link先を確認
Jihwan Oh, Sungnyun Kim, Gahee Kim, Sunghwan Kim, Se-Young Yun, (参考訳) オフラインマルチエージェント強化学習(MARL)は、リアルタイムインタラクションが非現実的で、リスクが高く、コストがかかる環境において、RLアルゴリズムを効果的に展開する上で重要であると認識されている。 オフライン環境では、過去のインタラクションの静的データセットから学習することで、ライブデータ収集を必要とせず、堅牢で安全なポリシの開発が可能になる。 拡散モデルを用いたオフラインMARLフレームワークの新たなアプローチであるQ-total lossによるEAQ, Episodes Augmentationを提案する。 EAQは、Q-total関数を直接拡散モデルに統合し、エピソードのグローバルリターンを最大化するためのガイダンスとして、個別のトレーニングの必要性を排除する。 我々は主に協力的なシナリオに焦点を合わせ、エージェントはグローバルリターンを最大化し、共通の目標を達成するために一括して行動する必要がある。 その結果、我々のエピソードの協調的な増大は、元のデータセットと比較してオフラインMARLアルゴリズムを著しく向上させ、SMACシミュレータにおける中・低行動ポリシーに対して、正常化リターンを+17.3%、+12.9%向上させることを示した。

Offline multi-agent reinforcement learning (MARL) is increasingly recognized as crucial for effectively deploying RL algorithms in environments where real-time interaction is impractical, risky, or costly. In the offline setting, learning from a static dataset of past interactions allows for the development of robust and safe policies without the need for live data collection, which can be fraught with challenges. Building on this foundational importance, we present EAQ, Episodes Augmentation guided by Q-total loss, a novel approach for offline MARL framework utilizing diffusion models. EAQ integrates the Q-total function directly into the diffusion model as a guidance to maximize the global returns in an episode, eliminating the need for separate training. Our focus primarily lies on cooperative scenarios, where agents are required to act collectively towards achieving a shared goal-essentially, maximizing global returns. Consequently, we demonstrate that our episodes augmentation in a collaborative manner significantly boosts offline MARL algorithm compared to the original dataset, improving the normalized return by +17.3% and +12.9% for medium and poor behavioral policies in SMAC simulator, respectively.
翻訳日:2024-08-26 14:50:54 公開日:2024-08-23
# 監視量子回路の光-円錐相関における効率的な後選択

Efficient post-selection in light-cone correlations of monitored quantum circuits ( http://arxiv.org/abs/2408.13096v1 )

ライセンス: Link先を確認
Jimin Li, Robert L. Jack, Bruno Bertini, Juan P. Garrahan, (参考訳) 我々は、監視量子回路における非定型的な測定結果、すなわち選択後の問題に基づいて進化を目標にする方法を検討する。 簡単な測定手法では, 異なるユニタリ回路の平均相関から, 選択後の光円錐動的相関関数を効率的に得ることができることを示す。 これは、ある回路における稀な測定結果と別の回路における典型的な結果とを結びつける。 我々は、XYZゲートからなるブリックワーク量子回路において、この稀-典型マッピングが存在する条件を導出する。 これらの一般的な結果は、事象統計学において動的交叉(スムーズな動的遷移)を示すモデルシステムを用いて説明し、より一般的な動的相関に対する拡張について議論する。

We consider how to target evolution conditioned on atypical measurement outcomes in monitored quantum circuits, i.e., the post-selection problem. We show that for a simple class of measurement schemes, post-selected light-cone dynamical correlation functions can be obtained efficiently from the averaged correlations of a different unitary circuit. This connects rare measurement outcomes in one circuit to typical outcomes in another one. We derive conditions for the existence of this rare-to-typical mapping in brickwork quantum circuits made of XYZ gates. We illustrate these general results with a model system that exhibits a dynamical crossover (a smoothed dynamical transition) in event statistics, and discuss extensions to more general dynamical correlations.
翻訳日:2024-08-26 14:50:54 公開日:2024-08-23
# 物理インフォームドニューラルネットワークのための機能的テンソル分解

Functional Tensor Decompositions for Physics-Informed Neural Networks ( http://arxiv.org/abs/2408.13101v1 )

ライセンス: Link先を確認
Sai Karthikeya Vemuri, Tim Büchner, Julia Niebling, Joachim Denzler, (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、偏微分方程式(PDE)の近似において連続的かつ増加する公約を示しているが、それらは次元の呪いによって制約されている。 本稿では,古典変数分離法を一般化したPINNバージョンを提案する。 これを行うために、まず、普遍近似定理を用いて、入力が分離変数であるニューラルネットワークの外積によって多変量関数を近似できることを示す。 我々は、テンソル分解形式を利用して、PINN設定における変数を分離する。 Canonic Polyadic(CP)、Tensor-Train(TT)、Tucker分解形式をPINNフレームワークに組み込むことで、外部製品によって接続された別個のニューラルネットワークから多変量関数を学習するための堅牢なアーキテクチャを構築する。 提案手法は, 3d ヘルムホルツ方程式や5d ポアソン方程式などを含む複雑な高次元 PDE において, PINN の性能を著しく向上させる。 この研究は、テンソル分解に基づく可変分離PINNが最先端技術を超える可能性を強調し、PDE近似における次元問題に対する説得力のある解決策を提供する。

Physics-Informed Neural Networks (PINNs) have shown continuous and increasing promise in approximating partial differential equations (PDEs), although they remain constrained by the curse of dimensionality. In this paper, we propose a generalized PINN version of the classical variable separable method. To do this, we first show that, using the universal approximation theorem, a multivariate function can be approximated by the outer product of neural networks, whose inputs are separated variables. We leverage tensor decomposition forms to separate the variables in a PINN setting. By employing Canonic Polyadic (CP), Tensor-Train (TT), and Tucker decomposition forms within the PINN framework, we create robust architectures for learning multivariate functions from separate neural networks connected by outer products. Our methodology significantly enhances the performance of PINNs, as evidenced by improved results on complex high-dimensional PDEs, including the 3d Helmholtz and 5d Poisson equations, among others. This research underscores the potential of tensor decomposition-based variably separated PINNs to surpass the state-of-the-art, offering a compelling solution to the dimensionality challenge in PDE approximation.
翻訳日:2024-08-26 14:50:54 公開日:2024-08-23
# 対人攻撃に対する深層学習ロバストネスのための動的ラベル反転訓練

Dynamic Label Adversarial Training for Deep Learning Robustness Against Adversarial Attacks ( http://arxiv.org/abs/2408.13102v1 )

ライセンス: Link先を確認
Zhenyu Liu, Haoran Duan, Huizhi Liang, Yang Long, Vaclav Snasel, Guiseppe Nicosia, Rajiv Ranjan, Varun Ojha, (参考訳) 対人訓練は、モデルの堅牢性を高める最も効果的な方法の1つである。 近年のアプローチでは, 対向蒸留が対向訓練アーキテクチャに取り入れられている。 しかし,(1) 従来の手法では, 敵の訓練に静的接地真理を主に用いていたが, しばしば強靭なオーバーフィッティングが生じる。(2) 損失関数は, 平均二乗誤差あるいはKL偏差であり, クリーンな精度で準最適性能をもたらす。 これらの問題を解決するために,動的ラベル逆トレーニング(DYNAT)アルゴリズムを提案する。 さらに,対象モデルに対する内部最適化の予算化次元が,クリーンな精度とロバストな精度のトレードオフに寄与することを発見した。 そこで本稿では,新たな内的最適化手法を提案する。 これにより、ターゲットモデルは、誘導モデルから動的ラベルに基づいて、敵の例を適応的に探索することができ、ターゲットモデルの堅牢性に寄与する。 大規模な実験により、我々のアプローチの優れた性能が検証された。

Adversarial training is one of the most effective methods for enhancing model robustness. Recent approaches incorporate adversarial distillation in adversarial training architectures. However, we notice two scenarios of defense methods that limit their performance: (1) Previous methods primarily use static ground truth for adversarial training, but this often causes robust overfitting; (2) The loss functions are either Mean Squared Error or KL-divergence leading to a sub-optimal performance on clean accuracy. To solve those problems, we propose a dynamic label adversarial training (DYNAT) algorithm that enables the target model to gradually and dynamically gain robustness from the guide model's decisions. Additionally, we found that a budgeted dimension of inner optimization for the target model may contribute to the trade-off between clean accuracy and robust accuracy. Therefore, we propose a novel inner optimization method to be incorporated into the adversarial training. This will enable the target model to adaptively search for adversarial examples based on dynamic labels from the guiding model, contributing to the robustness of the target model. Extensive experiments validate the superior performance of our approach.
翻訳日:2024-08-26 14:50:54 公開日:2024-08-23
# バイナリ分類のための量子符号化手法の実証力

Empirical Power of Quantum Encoding Methods for Binary Classification ( http://arxiv.org/abs/2408.13109v1 )

ライセンス: Link先を確認
Gennaro De Luca, Andrew Vlasic, Michael Vitz, Anh Pham, (参考訳) 量子機械学習は、量子コンピューティングの多くの潜在的な応用の1つであり、それぞれに新しい計算上の利点が期待されている。 しかし、量子機械学習アプリケーションは、現実世界の古典的データに対する古典的なアプローチを上回りません。 これらのモデルが少数のトレーニングデータポイントからうまく一般化する能力は、一般的にこのアプローチの数少ない決定的な利点の1つと考えられている。 本研究では、代わりに、様々な機械学習メトリクスに対する符号化スキームとその効果に焦点を当てる。 具体的には、いくつかの実世界のデータセットの量子符号化戦略と分類モデル標準であるLightGBMの違いを示すために、実世界のデータ符号化に焦点を当てる。 特に、アングル、振幅、IQP、エンタングルドアングル、代替IQPの3つの標準アプローチと2つの修正アプローチを含む符号化戦略を適用する。 これらのアプローチは、より大きなデータセットを符号化するためにかなりの数の量子ビットまたはゲートを必要とするため、量子シミュレータの限られた計算能力をサポートするために機能選択を行う。 この特徴の選択は、QUBOの定式化に基づく量子アニール強化アプローチによって行われる。 本研究では、IQPエンコーディングとLightGBMによる量子機械学習が、割り当てられた学習タスクの大部分に対して統計的に等価な結果をもたらすという、予備的なデモンストレーションを提供する。

Quantum machine learning is one of the many potential applications of quantum computing, each of which is hoped to provide some novel computational advantage. However, quantum machine learning applications often fail to outperform classical approaches on real-world classical data. The ability of these models to generalize well from few training data points is typically considered one of the few definitive advantages of this approach. In this work, we will instead focus on encoding schemes and their effects on various machine learning metrics. Specifically, we focus on real-world data encoding to demonstrate differences between quantum encoding strategies for several real-world datasets and the classification model standard, LightGBM. In particular, we apply the following encoding strategies, including three standard approaches and two modified approaches: Angle, Amplitude, IQP, Entangled Angle, and Alternative IQP. As these approaches require either a significant number of qubits or gates to encode larger datasets, we perform feature selection to support the limited computing power of quantum simulators. This feature selection is performed through a quantum annealing enhanced approach that builds on a QUBO formulation of the problem. In this work, we provide a preliminary demonstration that quantum machine learning with the IQP encoding and LightGBM produce statistically equivalent results for a large majority of the assigned learning tasks.
翻訳日:2024-08-26 14:50:54 公開日:2024-08-23
# ニューラルネットワーク型アーキテクチャにおけるポイントワイド非線形性の制御学習

Controlled Learning of Pointwise Nonlinearities in Neural-Network-Like Architectures ( http://arxiv.org/abs/2408.13114v1 )

ライセンス: Link先を確認
Michael Unser, Alexis Goujon, Stanislas Ducotterd, (参考訳) 傾斜制約を受ける階層型計算アーキテクチャにおける自由形式非線形性のトレーニングのための一般的な変分フレームワークを提案する。 従来のトレーニング損失に加算する正規化は、トレーニング可能な各アクティベーションの2階の総変動を罰する。 傾斜制約により、1-Lipschitz安定性、堅固な非膨張性、単調性/可逆性といった特性を課すことができる。 これらの性質は、特定の信号処理アルゴリズムのクラス(例えば、プラグ・アンド・プレイスキーム、回転しない近位勾配、可逆フロー)の適切な機能を保証するために不可欠である。 制約最適化問題の大域的最適性は、適応的非一様線形スプラインである非線形性によって達成されることを示す。 次に、適切な(一様でない)B-スプラインベースで非線形性を表現し、関数最適化問題を数値的に解く方法を示す。 最後に、画像の復調と逆問題解決のための(弱く)凸正規化器のデータ駆動設計によるフレームワークの利用について説明する。

We present a general variational framework for the training of freeform nonlinearities in layered computational architectures subject to some slope constraints. The regularization that we add to the traditional training loss penalizes the second-order total variation of each trainable activation. The slope constraints allow us to impose properties such as 1-Lipschitz stability, firm non-expansiveness, and monotonicity/invertibility. These properties are crucial to ensure the proper functioning of certain classes of signal-processing algorithms (e.g., plug-and-play schemes, unrolled proximal gradient, invertible flows). We prove that the global optimum of the stated constrained-optimization problem is achieved with nonlinearities that are adaptive nonuniform linear splines. We then show how to solve the resulting function-optimization problem numerically by representing the nonlinearities in a suitable (nonuniform) B-spline basis. Finally, we illustrate the use of our framework with the data-driven design of (weakly) convex regularizers for the denoising of images and the resolution of inverse problems.
翻訳日:2024-08-26 14:50:54 公開日:2024-08-23
# 光制御のためのエンドツーエンド表面最適化

End-to-end Surface Optimization for Light Control ( http://arxiv.org/abs/2408.13117v1 )

ライセンス: Link先を確認
Yuou Sun, Bailin Deng, Juyong Zhang, (参考訳) 目標分布を達成するために反射または屈折する自由曲面を設計することは、難しい逆問題である。 本稿では,光学面メッシュのエンドツーエンド最適化手法を提案する。 我々の定式化は、新しい微分可能レンダリングモデルを活用し、その結果の光分布とターゲット分布との差によって直接駆動される。 また, 設計面のCNC加工や研磨を容易にするため, 加工条件に関する幾何学的制約も実施する。 局所最小化の問題に対処するために、現在のメッシュとターゲット分布との間の顔ベース最適輸送問題を定式化し、表面形状に大きな変化をもたらす。 最適トランスポート更新とレンダリング誘導最適化の組み合わせにより,対象によく似た画像が得られた光学面設計が実現される一方,最適化における製作制約は,レンダリングモデルと最終的な物理結果との整合性を確保するのに有効である。 本アルゴリズムの有効性は、シミュレーションレンダリングと物理プロトタイプの両方を用いて、様々なターゲット画像に対して実証される。

Designing a freeform surface to reflect or refract light to achieve a target distribution is a challenging inverse problem. In this paper, we propose an end-to-end optimization strategy for an optical surface mesh. Our formulation leverages a novel differentiable rendering model, and is directly driven by the difference between the resulting light distribution and the target distribution. We also enforce geometric constraints related to fabrication requirements, to facilitate CNC milling and polishing of the designed surface. To address the issue of local minima, we formulate a face-based optimal transport problem between the current mesh and the target distribution, which makes effective large changes to the surface shape. The combination of our optimal transport update and rendering-guided optimization produces an optical surface design with a resulting image closely resembling the target, while the fabrication constraints in our optimization help to ensure consistency between the rendering model and the final physical results. The effectiveness of our algorithm is demonstrated on a variety of target images using both simulated rendering and physical prototypes.
翻訳日:2024-08-26 14:50:54 公開日:2024-08-23
# Discount Fusion を用いた深層部分的多視点分類

Evidential Deep Partial Multi-View Classification With Discount Fusion ( http://arxiv.org/abs/2408.13123v1 )

ライセンス: Link先を確認
Haojian Huang, Zhe Liu, Sukumar Letchmunan, Mingwei Lin, Muhammet Deveci, Witold Pedrycz, Patrick Siarry, (参考訳) 不完全なマルチビューデータ分類は、現実のシナリオにおけるビューの欠如という共通の問題のために大きな課題を生んでいる。 進歩にも拘わらず、既存の手法では、欠落した見解の不確実性や不整合なデータの質が原因で、信頼できる予測が得られないことが多い。 これらの問題を解決するために,EDP-MVC (Evidential Deep partial Multi-View Classification) と呼ばれる新しいフレームワークを提案する。 最初は、K-means命令を使用して、行方不明のビューに対処し、完全なマルチビューデータのセットを作成します。 しかし、この暗示データ内の潜在的な衝突や不確実性は、下流の推論の信頼性に影響を与える可能性がある。 これを管理するために、証拠の信頼性に基づいて動的に調整し、信頼性の高い割引融合を保証し、信頼性の高い推測結果を生成する衝突認識証拠融合ネットワーク(CAEFN)を導入する。 様々なベンチマークデータセットの総合的な実験により、EDP-MVCは一致しただけでなく、最先端の手法の性能を上回ることが多い。

Incomplete multi-view data classification poses significant challenges due to the common issue of missing views in real-world scenarios. Despite advancements, existing methods often fail to provide reliable predictions, largely due to the uncertainty of missing views and the inconsistent quality of imputed data. To tackle these problems, we propose a novel framework called Evidential Deep Partial Multi-View Classification (EDP-MVC). Initially, we use K-means imputation to address missing views, creating a complete set of multi-view data. However, the potential conflicts and uncertainties within this imputed data can affect the reliability of downstream inferences. To manage this, we introduce a Conflict-Aware Evidential Fusion Network (CAEFN), which dynamically adjusts based on the reliability of the evidence, ensuring trustworthy discount fusion and producing reliable inference outcomes. Comprehensive experiments on various benchmark datasets reveal EDP-MVC not only matches but often surpasses the performance of state-of-the-art methods.
翻訳日:2024-08-26 14:50:54 公開日:2024-08-23
# CathAction: 血管インターベンション理解のためのベンチマーク

CathAction: A Benchmark for Endovascular Intervention Understanding ( http://arxiv.org/abs/2408.13126v1 )

ライセンス: Link先を確認
Baoru Huang, Tuan Vo, Chayun Kongtongvattana, Giulio Dagnino, Dennis Kundrat, Wenqiang Chi, Mohamed Abdelaziz, Trevor Kwok, Tudor Jianu, Tuong Do, Hieu Le, Minh Nguyen, Hoan Nguyen, Erman Tjiputra, Quang Tran, Jianyang Xie, Yanda Meng, Binod Bhattarai, Zhaorui Tan, Hongbin Liu, Hong Seng Gan, Wei Wang, Xi Yang, Qiufeng Wang, Jionglong Su, Kaizhu Huang, Angelos Stefanidis, Min Guo, Bo Du, Rong Tao, Minh Vu, Guoyan Zheng, Yalin Zheng, Francisco Vasconcelos, Danail Stoyanov, Daniel Elson, Ferdinando Rodriguez y Baena, Anh Nguyen, (参考訳) カテーテル化解析によるリアルタイム視覚フィードバックは,血管内手術における外科的安全性と効率の向上に不可欠である。 しかし、既存のデータセットは、しばしば特定のタスク、小さなスケールに制限され、より広範な血管内介入を理解するのに必要な包括的なアノテーションが欠如している。 これらの制約に対処するため,カテーテル化理解のための大規模データセットであるCathActionを導入する。 我々のCathActionデータセットは、カテーテルの動作理解と衝突検出のための約50,000の注釈付きフレームと、カテーテルとガイドワイヤのセグメンテーションのための25,000の真実マスクを含んでいる。 各タスクについて、この分野における最近の関連する研究をベンチマークする。 さらに,従来のコンピュータビジョンの課題と比較して,血管内意図の課題を議論し,オープンな研究課題を指摘する。 我々はCathActionが現実世界の応用に適用可能な血管内介入理解手法の開発を促進することを願っている。 データセットはhttps://airvlab.github.io/cathdata/で公開されている。

Real-time visual feedback from catheterization analysis is crucial for enhancing surgical safety and efficiency during endovascular interventions. However, existing datasets are often limited to specific tasks, small scale, and lack the comprehensive annotations necessary for broader endovascular intervention understanding. To tackle these limitations, we introduce CathAction, a large-scale dataset for catheterization understanding. Our CathAction dataset encompasses approximately 500,000 annotated frames for catheterization action understanding and collision detection, and 25,000 ground truth masks for catheter and guidewire segmentation. For each task, we benchmark recent related works in the field. We further discuss the challenges of endovascular intentions compared to traditional computer vision tasks and point out open research questions. We hope that CathAction will facilitate the development of endovascular intervention understanding methods that can be applied to real-world applications. The dataset is available at https://airvlab.github.io/cathdata/.
翻訳日:2024-08-26 14:50:54 公開日:2024-08-23
# 量子レインボー符号

Quantum Rainbow Codes ( http://arxiv.org/abs/2408.13130v1 )

ライセンス: Link先を確認
Thomas R. Scruby, Arthur Pesah, Mark Webster, (参考訳) 色符号とピン符号を一般化した新しい量子誤り訂正符号である虹符号を導入する。 レインボー符号は、$0$-simplicesの有効な$(D+1)$-colouringを許容する任意の$D$-次元のsimplicial complex上で定義することができる。 本稿では, これらの単純錯体がハイパーグラフ生成物を介して得られた鎖錯体から導出される場合について詳細に検討し, これらの符号をドメイン壁に結合したカラー符号の集合として再解釈することにより, 符号付きキュービットの数と距離が増大するコードファミリ, および$T$および$T^\dag$の超越的応用によって実装された論理的非クリフォードゲートが得られることを示す。 これらの技法をZhu et al (arXiv:2310.16982) の準双曲色符号と組み合わせることで、超越的な非クリフォードゲートとパラメータ $[\! [n,O(n),O(log(n))]\! これにより、マジック状態の収率パラメータ $\gamma = \log_d(n/k)$ を任意に小さくすることができる。 一方、$\gamma \rightarrow 0 の他の構成とは対照的に、我々の符号は qubit 上でネイティブに定義されており、LDPC であり、論理的な非クリフォードゲートはシングルキュービット(エンタングリングではなく)物理演算で実装できるが、漸近的に良いものではない。

We introduce rainbow codes, a novel class of quantum error correcting codes generalising colour codes and pin codes. Rainbow codes can be defined on any $D$-dimensional simplicial complex that admits a valid $(D+1)$-colouring of its $0$-simplices. We study in detail the case where these simplicial complexes are derived from chain complexes obtained via the hypergraph product and, by reinterpreting these codes as collections of colour codes joined at domain walls, show that we can obtain code families with growing distance and number of encoded qubits as well as logical non-Clifford gates implemented by transversal application of $T$ and $T^\dag$. By combining these techniques with the quasi-hyperbolic colour codes of Zhu et al. (arXiv:2310.16982) we obtain families of codes with transversal non-Clifford gates and parameters $[\![n,O(n),O(log(n))]\!]$ which allow the magic-state yield parameter $\gamma = \log_d(n/k)$ to be made arbitrarily small. In contrast to other recent constructions that achieve $\gamma \rightarrow 0$ our codes are natively defined on qubits, are LDPC, and have logical non-Clifford gates implementable by single-qubit (rather than entangling) physical operations, but are not asymptotically good.
翻訳日:2024-08-26 14:41:09 公開日:2024-08-23
# DeTPP:ロバストな長距離イベント予測のためのオブジェクト検出の活用

DeTPP: Leveraging Object Detection for Robust Long-Horizon Event Prediction ( http://arxiv.org/abs/2408.13131v1 )

ライセンス: Link先を確認
Ivan Karpukhin, Andrey Savchenko, (参考訳) 長期にわたる未来イベントの予測は、小売、金融、ヘルスケア、ソーシャルネットワークなど、様々な領域における基本的な課題である。 MTPP (Marked Temporal Point Processes) のような伝統的な手法は、通常、複数の将来の事象を予測するために自己回帰モデルを使用する。 しかしながら、これらのモデルは、一定または反復的な出力に収束するなどの問題にしばしば遭遇し、その有効性と適用性を大幅に制限する。 これらの制約を克服するために,コンピュータビジョンからオブジェクト検出手法に触発された新しいアプローチであるDeTPP(Detection-based Temporal Point Processes)を提案する。 DeTPPは、信頼性の高い予測可能なイベントに選択的に焦点をあて、トレーニングの堅牢性と推論の多様性を向上する、新しいマッチングベースの損失関数を利用する。 提案手法は, 従来のMTPPおよび次世代K手法よりもはるかに優れた, 長距離イベント予測における最先端の手法である。 DeTPPの実装はGitHubで公開されている。

Forecasting future events over extended periods, known as long-horizon prediction, is a fundamental task in various domains, including retail, finance, healthcare, and social networks. Traditional methods, such as Marked Temporal Point Processes (MTPP), typically use autoregressive models to predict multiple future events. However, these models frequently encounter issues such as converging to constant or repetitive outputs, which significantly limits their effectiveness and applicability. To overcome these limitations, we propose DeTPP (Detection-based Temporal Point Processes), a novel approach inspired by object detection methods from computer vision. DeTPP utilizes a novel matching-based loss function that selectively focuses on reliably predictable events, enhancing both training robustness and inference diversity. Our method sets a new state-of-the-art in long-horizon event prediction, significantly outperforming existing MTPP and next-K approaches. The implementation of DeTPP is publicly available on GitHub.
翻訳日:2024-08-26 14:41:09 公開日:2024-08-23
# インターセクションにおける深層学習:3Dビジョンのツールとしてのロバストネス認定

Deep Learning at the Intersection: Certified Robustness as a Tool for 3D Vision ( http://arxiv.org/abs/2408.13135v1 )

ライセンス: Link先を確認
Gabriel Pérez S, Juan C. Pérez, Motasem Alfarra, Jesús Zarzar, Sara Rojas, Bernard Ghanem, Pablo Arbeláez, (参考訳) 本稿では,機械学習における認証されたロバスト性と3Dオブジェクトのモデリングとの新たな関連性について予備研究を行う。 空間の占有度を表す分類器のMCR(Maximal Certified Radius)と空間の符号距離関数(Signed Distance Function, SDF)との興味深いリンクを強調した。 この関係を利用して、ランダム化スムーシング(RS)の認証手法をSDFの計算に用いることを提案する。 RSの高計算コストは,SDFの計算手段としての実用的利用を妨げるため,事前に計算されたボクセルグリッド上でガウススムージングとしてRSの基本演算を表現することにより,3次元空間などの低次元アプリケーションでRSを効率的に動作させるアルゴリズムを提案する。 提案手法は,新しい視点合成における概念実証実験を通じて検証された,SDFを計算するための革新的で実用的なツールを提供する。 本稿は、これまでと異なる2つの機械学習分野を橋渡しし、さらなる探索と潜在的なクロスドメインの進展のための新たな道を開く。

This paper presents preliminary work on a novel connection between certified robustness in machine learning and the modeling of 3D objects. We highlight an intriguing link between the Maximal Certified Radius (MCR) of a classifier representing a space's occupancy and the space's Signed Distance Function (SDF). Leveraging this relationship, we propose to use the certification method of randomized smoothing (RS) to compute SDFs. Since RS' high computational cost prevents its practical usage as a way to compute SDFs, we propose an algorithm to efficiently run RS in low-dimensional applications, such as 3D space, by expressing RS' fundamental operations as Gaussian smoothing on pre-computed voxel grids. Our approach offers an innovative and practical tool to compute SDFs, validated through proof-of-concept experiments in novel view synthesis. This paper bridges two previously disparate areas of machine learning, opening new avenues for further exploration and potential cross-domain advancements.
翻訳日:2024-08-26 14:41:09 公開日:2024-08-23
# Tamgram: 玉林における大規模プロトコルモデリングのフロントエンド

Tamgram: A Frontend for Large-scale Protocol Modeling in Tamarin ( http://arxiv.org/abs/2408.13138v1 )

ライセンス: Link先を確認
Di Long Li, Jim de Groot, Alwen Tiu, (参考訳) ProVerifやTamarinのような自動セキュリティプロトコル検証器は、大規模で複雑な実世界のプロトコルを検証するためにますます応用されている。 その規模でプロトコルを扱うのに必要な、難しい推論プロセスを自動化する能力は印象的だが、使われているモデリング言語にはまだギャップがある。 特に、大規模なプロトコル仕様を記述および保守するためのサポートを提供する。 この研究は、タマリンのマルチセット書き換えセマンティクスに変換可能な形式的セマンティクスで、Tamgramと呼ばれる高レベルのプロトコルモデリング言語を導入することで、このギャップを埋めようとしている。 TamgramはネイティブなTamarinコードを直接書くことをサポートしているが、様々な高レベルな構造体、特にプロトコルで状態を操作するために必要なものを通じて、大きな仕様を簡単に構成できる。 本研究では,タマリンのトレースセマンティクスに関するタマグラムの健全性と完全性を証明し,異なる翻訳戦略について議論し,手作業によるタマリン仕様に匹敵する性能をもたらす最適戦略を特定する。 最後に,小型ケーススタディと大規模ケーススタディのセットを用いて,Tamgramの実用性を示す。

Automated security protocol verifiers such as ProVerif and Tamarin have been increasingly applied to verify large scale complex real-world protocols. While their ability to automate difficult reasoning processes required to handle protocols at that scale is impressive, there remains a gap in the modeling languages used. In particular, providing support for writing and maintaining large protocol specifications. This work attempts to fill this gap by introducing a high-level protocol modeling language, called Tamgram, with a formal semantics that can be translated to the multiset rewriting semantics of Tamarin. Tamgram supports writing native Tamarin code directly, but also allows for easier structuring of large specifications through various high-level constructs, in particular those needed to manipulate states in protocols. We prove the soundness and the completeness of Tamgram with respect to the trace semantics of Tamarin, discuss different translation strategies, and identify an optimal strategy that yields performance comparable to manually coded Tamarin specifications. Finally we show the practicality of Tamgram with a set of small case studies and one large scale case study.
翻訳日:2024-08-26 14:41:09 公開日:2024-08-23
# 同時進行型DEC-PMDPの最適解法 : 逐次中央計画アプローチ

Optimally Solving Simultaneous-Move Dec-POMDPs: The Sequential Central Planning Approach ( http://arxiv.org/abs/2408.13139v1 )

ライセンス: Link先を確認
Johan Peralez, Aurélien Delage, Jacopo Castellini, Rafael F. Cunha, Jilles S. Dibangoye, (参考訳) 分散化された部分観測可能なマルコフ決定過程を最適に解くための最先端のアプローチとして、分散実行パラダイムのための集中トレーニングが登場した。 しかし、スケーラビリティは依然として大きな問題である。 本稿では、分散実行のためのシーケンシャルモブ集中型トレーニングという、新しい、よりスケーラブルな代替手段を提案する。 このパラダイムはベルマンの最適性原理の適用性をさらに押し上げ、3つの新しい性質を提起する。 第一に、中央プランナーは、事前の同時移動ではなく、十分なシーケンシャルな移動統計を推論することができる。 次に、エプシロン-最適値関数は、十分なシーケンシャル・モーブ統計量において、断片的に線型かつ凸であることが証明される。 最後に、より長い計画的地平線を犠牲にして、バックアップ作用素の複雑さを二重指数関数から多項式に落とす。 さらに, コンバージェンス保証を保ちながら, SARSAアルゴリズムを適用すれば, 単一エージェント法の使用も容易になる。 エプシロン最適同時移動解法に対する文献からの2項および多項領域の実験により、新しいアプローチの優位性が確認された。 このパラダイムは、マルチエージェントシステムのための効率的な計画と強化学習手法の扉を開く。

Centralized training for decentralized execution paradigm emerged as the state-of-the-art approach to epsilon-optimally solving decentralized partially observable Markov decision processes. However, scalability remains a significant issue. This paper presents a novel and more scalable alternative, namely sequential-move centralized training for decentralized execution. This paradigm further pushes the applicability of Bellman's principle of optimality, raising three new properties. First, it allows a central planner to reason upon sufficient sequential-move statistics instead of prior simultaneous-move ones. Next, it proves that epsilon-optimal value functions are piecewise linear and convex in sufficient sequential-move statistics. Finally, it drops the complexity of the backup operators from double exponential to polynomial at the expense of longer planning horizons. Besides, it makes it easy to use single-agent methods, e.g., SARSA algorithm enhanced with these findings applies while still preserving convergence guarantees. Experiments on two- as well as many-agent domains from the literature against epsilon-optimal simultaneous-move solvers confirm the superiority of the novel approach. This paradigm opens the door for efficient planning and reinforcement learning methods for multi-agent systems.
翻訳日:2024-08-26 14:41:09 公開日:2024-08-23
# 線形近似とリプシッツ最適化によるニューラルネットワークの幾何学的ロバスト性の検証

Verification of Geometric Robustness of Neural Networks via Piecewise Linear Approximation and Lipschitz Optimisation ( http://arxiv.org/abs/2408.13140v1 )

ライセンス: Link先を確認
Ben Batten, Yang Zheng, Alessandro De Palma, Panagiotis Kouvaros, Alessio Lomuscio, (参考訳) 我々は、回転、スケーリング、せん断、翻訳を含む入力画像の幾何学的変換に対するニューラルネットワークの検証の問題に対処する。 提案手法は, 分枝・分枝リプシッツ最適化と組み合わせたサンプリングおよび線形近似を用いて, 画素値に対する高音域線形制約を求める。 この手法の特徴は、現在の最先端技術よりも摂動領域の過近似を強く得ることである。 総合的なベンチマークによる実験結果について報告する。 提案手法は,計算効率を向上しつつ,既存の手法よりも多くの検証事例を解決できることを示す。

We address the problem of verifying neural networks against geometric transformations of the input image, including rotation, scaling, shearing, and translation. The proposed method computes provably sound piecewise linear constraints for the pixel values by using sampling and linear approximations in combination with branch-and-bound Lipschitz optimisation. A feature of the method is that it obtains tighter over-approximations of the perturbation region than the present state-of-the-art. We report results from experiments on a comprehensive set of benchmarks. We show that our proposed implementation resolves more verification cases than present approaches while being more computationally efficient.
翻訳日:2024-08-26 14:41:09 公開日:2024-08-23
# 長距離相互作用を持つXXZ二層膜の量子臨界及び動的性質

Quantum-critical and dynamical properties of the XXZ bilayer with long-range interactions ( http://arxiv.org/abs/2408.13145v1 )

ライセンス: Link先を確認
Patrick Adelhardt, Antonia Duft, Kai Phillip Schmidt, (参考訳) 反強磁性非フラストレーション長距離相互作用を持つXXZ正方格子二層モデルについて検討した。 古典的モンテカルロ積分 (pCUT+MC) による大規模高次級数展開を用いて, ラング・シングレット相におけるハイゼンベルク二量体分離限界について検討し, 長距離崩壊指数とXXZ異方性のパラメータ軸に沿った一重項分散と対応するスペクトル重みについて検討した。 後者をチューニングすることにより、3d XY と Ising の普遍性の2つの拡張領域と、等方点における 3d Heisenberg 臨界指数を観察する。 崩壊指数軸に沿って、強い長距離結合に対する平均場挙動、十分に弱い相互作用のための上記の3つの普遍性クラス、そして連続的に変化する臨界指数を示す。 外挿法を用いて、1-トリップロンの分散を、ラング・シングレット相の量子臨界分解まで定量的に決定することができる。 これにより、動的臨界指数$z$を減衰指数の関数として抽出し、普遍的な振る舞いを示すことができる。 小さな崩壊指数に対して検出された$z<1$は、連続対称性が破れた秩序相における異常なゴールドストーンモードの期待特性と一致している。

We study the XXZ square lattice bilayer model with antiferromagnetic non-frustrating long-range interactions that decay as a power law with the distance. Employing large-scale high-order series expansions with classical Monte Carlo integration (pCUT+MC) about the limit of isolated Heisenberg dimers in the rung-singlet phase, we investigate the one-triplon dispersion and the corresponding spectral weight along the parameter axes of the long-range decay exponent and the XXZ anisotropy. By tuning the latter, we observe two extended regions of 3d XY and Ising universality as well as 3d Heisenberg critical exponents at the isotropic point. Along the decay exponent axis, we demonstrate mean-field behavior for strong long-range couplings, the aforementioned three universality classes for sufficiently weak interactions, and continuously varying critical exponents in-between. Using extrapolations we are able to determine the one-triplon dispersion in a quantitative fashion up to the quantum-critical breakdown of the rung-singlet phase. This allows to extract the dynamical critical exponent $z$ as a function of the decay exponent, displaying a universal behavior. The detected $z<1$ for small decay exponents is in agreement with the expected properties of the anomalous Goldstone modes in the ordered phases with broken continuous symmetry.
翻訳日:2024-08-26 14:41:09 公開日:2024-08-23
# カーネル変更点検出アルゴリズムのためのスキャンB統計量の再現

Reproduction of scan B-statistic for kernel change-point detection algorithm ( http://arxiv.org/abs/2408.13146v1 )

ライセンス: Link先を確認
Zihan Wang, (参考訳) 変化点検出は、疫病の流行、ソーシャルネットワークの進化、画像解析、無線通信など、幅広い用途で注目されている。 新しいデータサンプルが順次到着するオンライン環境では、これらのサンプルが別の分布に由来するかどうかを継続的にテストすることが重要である。 理想的には、実世界のアプリケーションにおいてロバスト性を確保するために、検出アルゴリズムは配布不要であるべきである。 本稿では、カーネルベースの効率的なスキャンB統計に基づいて、最近提案されたオンライン変更点検出アルゴリズムを再現し、その性能を2つの一般的なパラメトリック統計値と比較する。 数値実験により, 走査型B統計が常に優れた性能を発揮することが示された。 より困難なシナリオでは、パラメトリック法は変化を検出するのに失敗するが、スキャンB統計はそれらをタイムリーに識別することに成功した。 さらに、サブサンプリング技術を使用することで、元のアルゴリズムを控えめに改善する。

Change-point detection has garnered significant attention due to its broad range of applications, including epidemic disease outbreaks, social network evolution, image analysis, and wireless communications. In an online setting, where new data samples arrive sequentially, it is crucial to continuously test whether these samples originate from a different distribution. Ideally, the detection algorithm should be distribution-free to ensure robustness in real-world applications. In this paper, we reproduce a recently proposed online change-point detection algorithm based on an efficient kernel-based scan B-statistic, and compare its performance with two commonly used parametric statistics. Our numerical experiments demonstrate that the scan B-statistic consistently delivers superior performance. In more challenging scenarios, parametric methods may fail to detect changes, whereas the scan B-statistic successfully identifies them in a timely manner. Additionally, the use of subsampling techniques offers a modest improvement to the original algorithm.
翻訳日:2024-08-26 14:41:09 公開日:2024-08-23
# ShapeICP:反復カテゴリーレベルのオブジェクトポースと深さからの形状推定

ShapeICP: Iterative Category-level Object Pose and Shape Estimation from Depth ( http://arxiv.org/abs/2408.13147v1 )

ライセンス: Link先を確認
Yihao Zhang, John J. Leonard, (参考訳) 単一深度画像からのカテゴリーレベルのオブジェクトのポーズと形状推定は、ロボット工学や自動運転に広く応用されているため、最近研究の注目を集めている。 この課題は,3つの未知のポーズ,オブジェクト形状,およびモデル間対応が複合されているため,特に困難である。 以前の研究の大部分は、未知の領域の少なくとも1つと典型的には2つの解を得るためのデータ駆動アプローチに大きく依存しており、目に見えない領域への一般化に失敗するリスクがある。 以前の研究で使われた形状表現は、主に点雲と符号付き距離場(SDF)に焦点を当てている。 従来の研究とは対照的に、ポーズアノテートされたデータから学習する必要のない反復推定手法を用いてこの問題にアプローチする。 また,従来の文献では検討されていない,メッシュベースのオブジェクトアクティブな形状モデルを採用した。 われわれのアルゴリズムはShapeICPと呼ばれ、ICPアルゴリズムの基盤となっているが、カテゴリレベルのポーズと形状推定のための追加機能を備えている。 その結果、ShapeICPはポーズアノテートされたデータを使用しなくても、トレーニングのためにポーズデータに依存する多くのデータ駆動アプローチを超越し、研究者が考慮すべき新しいソリューション空間が開かれた。

Category-level object pose and shape estimation from a single depth image has recently drawn research attention due to its wide applications in robotics and self-driving. The task is particularly challenging because the three unknowns, object pose, object shape, and model-to-measurement correspondences, are compounded together but only a single view of depth measurements is provided. The vast majority of the prior work heavily relies on data-driven approaches to obtain solutions to at least one of the unknowns and typically two, running with the risk of failing to generalize to unseen domains. The shape representations used in the prior work also mainly focus on point cloud and signed distance field (SDF). In stark contrast to the prior work, we approach the problem using an iterative estimation method that does not require learning from any pose-annotated data. In addition, we adopt a novel mesh-based object active shape model that has not been explored by the previous literature. Our algorithm, named ShapeICP, has its foundation in the iterative closest point (ICP) algorithm but is equipped with additional features for the category-level pose and shape estimation task. The results show that even without using any pose-annotated data, ShapeICP surpasses many data-driven approaches that rely on the pose data for training, opening up new solution space for researchers to consider.
翻訳日:2024-08-26 14:41:09 公開日:2024-08-23
# 隣人に着目して全体を知る:3次元創造のための一貫性のあるマルチビューテキスト・ツー・イメージ・ジェネレータを目指して

Focus on Neighbors and Know the Whole: Towards Consistent Dense Multiview Text-to-Image Generator for 3D Creation ( http://arxiv.org/abs/2408.13149v1 )

ライセンス: Link先を確認
Bonan Li, Zicheng Zhang, Xingyi Yang, Xinchao Wang, (参考訳) 高忠実度3Dアセットを作成するためには,テキストプロンプトから高密度なマルチビュー画像を生成することが不可欠である。 それでも、既存の手法はスペースビュー対応に苦慮し、スパースと低品質の出力をもたらす。 本稿では,テキストから3Dへの一貫したテキスト・ツー・イメージ・ジェネレータであるCoSERを紹介する。 隣接する視点の一貫性を達成するために、各視点は隣接する視点と密接な相互作用を行い、グローバル空間構造を知覚し、物理的原理によって明確に定義された運動経路に沿って情報を集約し、詳細を洗練させる。 さらに、クロスビューの一貫性を高め、コンテンツドリフトを軽減するため、CoSERは、すべてのビューをスパイラルな双方向で素早くスキャンし、全体的情報を認識し、セマンティック素材に基づいて各ポイントをスコアする。 その後、スコアに基づいて空間次元に沿って重み付けされたダウンサンプリングを行い、軽量な計算で全てのビューをまたがる顕著な情報融合を容易にする。 技術的には、コアモジュールはアテンション機構と選択状態空間モデルを統合することで構築され、前者の堅牢な学習能力と後者の低オーバーヘッドを活用する。 広範評価の結果,CoSERは高精細・高精細・高精細・高精細・高精細なマルチビュー画像を生成することができ,様々な3次元モデルに柔軟に統合できることがわかった。

Generating dense multiview images from text prompts is crucial for creating high-fidelity 3D assets. Nevertheless, existing methods struggle with space-view correspondences, resulting in sparse and low-quality outputs. In this paper, we introduce CoSER, a novel consistent dense Multiview Text-to-Image Generator for Text-to-3D, achieving both efficiency and quality by meticulously learning neighbor-view coherence and further alleviating ambiguity through the swift traversal of all views. For achieving neighbor-view consistency, each viewpoint densely interacts with adjacent viewpoints to perceive the global spatial structure, and aggregates information along motion paths explicitly defined by physical principles to refine details. To further enhance cross-view consistency and alleviate content drift, CoSER rapidly scan all views in spiral bidirectional manner to aware holistic information and then scores each point based on semantic material. Subsequently, we conduct weighted down-sampling along the spatial dimension based on scores, thereby facilitating prominent information fusion across all views with lightweight computation. Technically, the core module is built by integrating the attention mechanism with a selective state space model, exploiting the robust learning capabilities of the former and the low overhead of the latter. Extensive evaluation shows that CoSER is capable of producing dense, high-fidelity, content-consistent multiview images that can be flexibly integrated into various 3D generation models.
翻訳日:2024-08-26 14:41:09 公開日:2024-08-23
# 高速最適化のための適応的バックトラッキング

Adaptive Backtracking For Faster Optimization ( http://arxiv.org/abs/2408.13150v1 )

ライセンス: Link先を確認
Joao V. Cavalcanti, Laurent Lessard, Ashia C. Wilson, (参考訳) バックトラックライン探索は数値最適化の基礎となる。 基本的な考え方は、選択された基準(例えばArmijo、Goldstein、Descent Lemma)が満たされるまで、アルゴリズムのステップサイズを定数因子で調整することである。 本稿では,通常のバックトラックに使用される定数係数を,計算負荷を伴わずに,選択基準が違反する度合いを考慮に入れた値に置き換える,ステップサイズを調整する新しい手法を提案する。 凸問題に対して, 適応的バックトラックは, 通常のバックトラックよりも, 2つの一般的なライン探索条件であるArmijo条件と降下補題に対して, 実現可能なステップサイズを生成するために, より少ない調整を必要とすることを証明した。 非凸スムーズな問題に対しては、適応的なバックトラックが通常のバックトラックと同じ保証を享受していることも証明する。 最後に、15以上の実世界のデータセットでさまざまな実験を行い、それらすべてが適応的なバックトラックが大幅に高速な最適化につながることを確認します。

Backtracking line search is foundational in numerical optimization. The basic idea is to adjust the step size of an algorithm by a constant factor until some chosen criterion (e.g. Armijo, Goldstein, Descent Lemma) is satisfied. We propose a new way for adjusting step sizes, replacing the constant factor used in regular backtracking with one that takes into account the degree to which the chosen criterion is violated, without additional computational burden. For convex problems, we prove adaptive backtracking requires fewer adjustments to produce a feasible step size than regular backtracking does for two popular line search criteria: the Armijo condition and the descent lemma. For nonconvex smooth problems, we additionally prove adaptive backtracking enjoys the same guarantees of regular backtracking. Finally, we perform a variety of experiments on over fifteen real world datasets, all of which confirm that adaptive backtracking often leads to significantly faster optimization.
翻訳日:2024-08-26 14:41:09 公開日:2024-08-23
# 変圧器を用いた時間的行動検出のための長期事前訓練

Long-Term Pre-training for Temporal Action Detection with Transformers ( http://arxiv.org/abs/2408.13152v1 )

ライセンス: Link先を確認
Jihwan Kim, Miso Lee, Jae-Pil Heo, (参考訳) 時間的行動検出(TAD)は、現実の動画アプリケーションには難しいが、基本的なものである。 近年、DADのDETRベースのモデルは、そのユニークな利点により普及している。 しかし、トランスフォーマーは巨大なデータセットを必要とするため、残念なことにTADにおけるデータ不足は、深刻な変性を引き起こす。 本稿では,データ不足による2つの重要な問題,すなわち注意崩壊と不均衡性能について述べる。 そこで本研究では,変圧器に適した新たな事前学習戦略であるLong-Term Pre-Training(LTP)を提案する。 LTPには2つの主要コンポーネントがある。 1)クラスワイド合成。 2) 長期プレテキストタスク。 まず,対象クラスと非対象クラスのビデオスニペットを融合して,長大な映像特徴を合成する。 これらは、トリミングデータから生成されるにもかかわらず、TADで使用される未トリミングデータに類似している。 さらに、長期依存を学習するための2種類の長期前文タスクを考案した。 彼らは第2から第4の行動や短期の行動の発見などの長期的条件を課している。 広範囲にわたる実験により, DETR を用いた ActivityNet-v1.3 と THUMOS14 の最先端性能が大幅に向上した。 さらに, LTP はTAD におけるデータ不足問題を著しく軽減することを示した。

Temporal action detection (TAD) is challenging, yet fundamental for real-world video applications. Recently, DETR-based models for TAD have been prevailing thanks to their unique benefits. However, transformers demand a huge dataset, and unfortunately data scarcity in TAD causes a severe degeneration. In this paper, we identify two crucial problems from data scarcity: attention collapse and imbalanced performance. To this end, we propose a new pre-training strategy, Long-Term Pre-training (LTP), tailored for transformers. LTP has two main components: 1) class-wise synthesis, 2) long-term pretext tasks. Firstly, we synthesize long-form video features by merging video snippets of a target class and non-target classes. They are analogous to untrimmed data used in TAD, despite being created from trimmed data. In addition, we devise two types of long-term pretext tasks to learn long-term dependency. They impose long-term conditions such as finding second-to-fourth or short-duration actions. Our extensive experiments show state-of-the-art performances in DETR-based methods on ActivityNet-v1.3 and THUMOS14 by a large margin. Moreover, we demonstrate that LTP significantly relieves the data scarcity issues in TAD.
翻訳日:2024-08-26 14:41:09 公開日:2024-08-23
# マンモグラフィー画像におけるCNNを用いた乳がん分類の解釈

Interpretable breast cancer classification using CNNs on mammographic images ( http://arxiv.org/abs/2408.13154v1 )

ライセンス: Link先を確認
Ann-Kristin Balve, Peter Hendrix, (参考訳) 深層学習モデルは乳がんの分類において有望な結果を得たが、その「黒い箱」の性質は解釈可能性の懸念を引き起こす。 本研究は、マンモグラム分類のための畳み込みニューラルネットワーク(CNN)の決定過程に関する重要な知見を得る必要性に対処する。 マンモグラフィ画像解析学会(MIAS)データセットを用いたCNNについて,説明的深度と計算効率の観点から,LIME,Grad-CAM,Kernel SHAPといったポストホック解釈可能性技術を比較した。 この分析の結果、特にGrad-CAMは、正常、良性、悪性の乳房組織に特徴的なパターンを呈し、CNNの行動に関する包括的な知見を提供することが示された。 臨床実習における機械学習モデルと解釈技術の利用における現在の知見の意義について考察する。

Deep learning models have achieved promising results in breast cancer classification, yet their 'black-box' nature raises interpretability concerns. This research addresses the crucial need to gain insights into the decision-making process of convolutional neural networks (CNNs) for mammogram classification, specifically focusing on the underlying reasons for the CNN's predictions of breast cancer. For CNNs trained on the Mammographic Image Analysis Society (MIAS) dataset, we compared the post-hoc interpretability techniques LIME, Grad-CAM, and Kernel SHAP in terms of explanatory depth and computational efficiency. The results of this analysis indicate that Grad-CAM, in particular, provides comprehensive insights into the behavior of the CNN, revealing distinctive patterns in normal, benign, and malignant breast tissue. We discuss the implications of the current findings for the use of machine learning models and interpretation techniques in clinical practice.
翻訳日:2024-08-26 14:41:09 公開日:2024-08-23
# 持続可能な農業生態系のための因果機械学習

Causal machine learning for sustainable agroecosystems ( http://arxiv.org/abs/2408.13155v1 )

ライセンス: Link先を確認
Vasileios Sitokonstantinou, Emiliano Díaz Salas Porras, Jordi Cerdà Bautista, Maria Piles, Ioannis Athanasiadis, Hannah Kerner, Giulia Martini, Lily-belle Sweet, Ilias Tsoumas, Jakob Zscheischler, Gustau Camps-Valls, (参考訳) 気候変動の中では、持続可能な農業は食料安全保障と環境衛生にとって不可欠である。 しかし、その生物学的、社会的、経済的要素間の複雑な相互作用を理解することは困難である。 データから学習する能力を持つ予測機械学習(ML)は、収量予測や天気予報といった応用のために持続可能な農業に活用されている。 それにもかかわらず、因果的メカニズムを説明することはできず、規範的ではなく記述的のままである。 このギャップに対処するために、我々は、MLのデータ処理と因果関係が変化を推論する能力とを融合した因果関係MLを提案する。 これは証拠に基づく意思決定に対する介入の影響の定量化を促進し、予測モデルの堅牢性を高める。 農家、政策立案者、研究者など、アグリフードチェーン全体の利害関係者に利益をもたらす8つの多様なアプリケーションを通じて因果MLを紹介します。

In a changing climate, sustainable agriculture is essential for food security and environmental health. However, it is challenging to understand the complex interactions among its biophysical, social, and economic components. Predictive machine learning (ML), with its capacity to learn from data, is leveraged in sustainable agriculture for applications like yield prediction and weather forecasting. Nevertheless, it cannot explain causal mechanisms and remains descriptive rather than prescriptive. To address this gap, we propose causal ML, which merges ML's data processing with causality's ability to reason about change. This facilitates quantifying intervention impacts for evidence-based decision-making and enhances predictive model robustness. We showcase causal ML through eight diverse applications that benefit stakeholders across the agri-food chain, including farmers, policymakers, and researchers.
翻訳日:2024-08-26 14:41:09 公開日:2024-08-23
# KonvLiNA:Kolmogorov-ArnoldネットワークとLinear Nyströmアテンションを統合した作物野検出機能融合

KonvLiNA: Integrating Kolmogorov-Arnold Network with Linear Nyström Attention for feature fusion in Crop Field Detection ( http://arxiv.org/abs/2408.13160v1 )

ライセンス: Link先を確認
Haruna Yunusa, Qin Shiyin, Adamu Lawan, Abdulrahman Hamman Adama Chukkol, (参考訳) 作物畑の検出は精密農業の重要な要素であり、資源配分の最適化と農業生産性の向上に不可欠である。 本研究では,コンボリュータル・コルモゴロフ・アルノルドネットワーク(cKAN)とNystr\"om attention mechanismを統合した新しいフレームワークであるKonvLiNAを紹介した。 KonvLiNAは、カン適応活性化機能を活用し、大規模データの処理におけるNystr\"om attentionの効率を向上し、複雑な農業環境における複雑なパターンを捉えることができるように特徴抽出を大幅に強化する。 イネの収穫データを用いた実験の結果、KonvLiNAは最先端の方法よりも優れており、Swin-Lのバックボーンで0.415 APと0.459 ARを達成し、従来のYOLOv8をかなり上回った。 さらに、COCOデータセットの評価では、小規模、中型、大型のオブジェクト間での競合性能を示し、多様な農業環境でのKonvLiNAの有効性を強調している。 本研究は, 農作物の検出・管理の改善を通じて, 農作物の高度化に資するハイブリット・カンの可能性と注意機構を明らかにするものである。

Crop field detection is a critical component of precision agriculture, essential for optimizing resource allocation and enhancing agricultural productivity. This study introduces KonvLiNA, a novel framework that integrates Convolutional Kolmogorov-Arnold Networks (cKAN) with Nystr\"om attention mechanisms for effective crop field detection. Leveraging KAN adaptive activation functions and the efficiency of Nystr\"om attention in handling largescale data, KonvLiNA significantly enhances feature extraction, enabling the model to capture intricate patterns in complex agricultural environments. Experimental results on rice crop dataset demonstrate KonvLiNA superiority over state-of-the-art methods, achieving a 0.415 AP and 0.459 AR with the Swin-L backbone, outperforming traditional YOLOv8 by significant margins. Additionally, evaluation on the COCO dataset showcases competitive performance across small, medium, and large objects, highlighting KonvLiNA efficacy in diverse agricultural settings. This work highlights the potential of hybrid KAN and attention mechanisms for advancing precision agriculture through improved crop field detection and management.
翻訳日:2024-08-26 14:41:09 公開日:2024-08-23
# フリーローダーに言うな。Deep Modelの知的財産を保護する

Say No to Freeloader: Protecting Intellectual Property of Your Deep Model ( http://arxiv.org/abs/2408.13161v1 )

ライセンス: Link先を確認
Lianyu Wang, Meng Wang, Huazhu Fu, Daoqiang Zhang, (参考訳) モデル知的財産権(IP)保護は、科学技術の進歩が人間の知的労働と計算費用に起因するため、注目を集めている。 トレーナーとオーナーのIP安全性を保証することは、特にオーナシップの認証と適用可能性の承認が必要なドメインにおいて最も重要である。 モデルIPを保護するための注目すべきアプローチは、未認可ドメインから十分に訓練されたモデルを使用することを積極的に防止することである。 本稿では,権限のないドメインから権限のないドメインへの不法な転送に対する障壁となる,コンパクト・アントランスファーブル・ピラミッド・アイソレーション・ドメイン(CUPI-Domain)について紹介する。 ヒトの推移的推論と学習能力からインスピレーションを得たCUPI-Domainは、認定ドメインの特有のスタイルの特徴を強調することによって、ドメイン間の転送を阻止するように設計されている。 この強調は、無許可ドメイン上の無関係なプライベートスタイルの特徴を認識することに失敗につながります。 そこで本研究では,CUPI-Domain と CUPI-Domain の両方の特徴をアンカーとして選択する新しい CUPI-Domain ジェネレータを提案する。 次に、これらのアンカーのスタイル特徴とセマンティック特徴を融合させ、ラベル付きおよびスタイルリッチなCUPI-Domainを生成する。 さらに、安定したドメインクラス機能とドメインクラスのスタイル機能を得るために、ラベル付きピラミッド機能を格納および更新するための外部ドメイン情報記憶バンク(DIMB)を設計する。 提案手法全体に基づいて,新規なスタイルと識別的損失関数を設計し,認証ドメインと未認可ドメインの識別的特徴の区別を効果的に強化する。 さらに、未承認領域が知られているかどうかに基づいて、CUPI-Domainを利用するための2つのソリューションを提供する。

Model intellectual property (IP) protection has attracted growing attention as science and technology advancements stem from human intellectual labor and computational expenses. Ensuring IP safety for trainers and owners is of utmost importance, particularly in domains where ownership verification and applicability authorization are required. A notable approach to safeguarding model IP involves proactively preventing the use of well-trained models of authorized domains from unauthorized domains. In this paper, we introduce a novel Compact Un-transferable Pyramid Isolation Domain (CUPI-Domain) which serves as a barrier against illegal transfers from authorized to unauthorized domains. Drawing inspiration from human transitive inference and learning abilities, the CUPI-Domain is designed to obstruct cross-domain transfers by emphasizing the distinctive style features of the authorized domain. This emphasis leads to failure in recognizing irrelevant private style features on unauthorized domains. To this end, we propose novel CUPI-Domain generators, which select features from both authorized and CUPI-Domain as anchors. Then, we fuse the style features and semantic features of these anchors to generate labeled and style-rich CUPI-Domain. Additionally, we design external Domain-Information Memory Banks (DIMB) for storing and updating labeled pyramid features to obtain stable domain class features and domain class-wise style features. Based on the proposed whole method, the novel style and discriminative loss functions are designed to effectively enhance the distinction in style and discriminative features between authorized and unauthorized domains, respectively. Moreover, we provide two solutions for utilizing CUPI-Domain based on whether the unauthorized domain is known: target-specified CUPI-Domain and target-free CUPI-Domain.
翻訳日:2024-08-26 14:30:33 公開日:2024-08-23
# 非局所相互作用を持つオープン電子系における運動駆動型量子散逸

Motion-driven quantum dissipation in an open electronic system with nonlocal interaction ( http://arxiv.org/abs/2408.13163v1 )

ライセンス: Link先を確認
Yang Wang, Ruanjing Zhang, Feiyi Liu, (参考訳) 本稿では, 相対運動を持つ2つの平行金属板の励起と散逸について検討する。 両プレートの電子の自由度を1+2次元ディラック場を用いてモデル化し、2枚のプレート間の相互作用を記述する非局所ポテンシャルを選択する。 内部の相対運動はガリレオブーストを介して導入され、一方のプレートが他方に対してスライドすることを仮定する。 次に, 摂動法を用いて, 運動量空間における真空占有数を導出する。 数値的なプロットは、運動量の関数として真空占有数は運動速度 v = 0 に対して等方的であり、非ゼロ v に対して異方的であることを示している。 したがって、運動誘起散逸効果と散逸力は量子的作用によって研究できる。 数値的な結果は、運動促進に対する量子作用の想像的部分と消散力の両方が v の関数として閾値を持ち、どちらも v と正の相関を持つことを示した。

In this paper, we study excitations and dissipation in two infinite parallel metallic plates with relative motion. We model the degrees of freedom of the electrons in both plates using the 1+2 dimensional Dirac field and select a nonlocal potential to describe the interaction between the two plates. The internal relative motion is introduced via a Galilean boost, assuming one plate slides relative to the other. We then calculate the effective action of the system and derive the vacuum occupation number in momentum space using a perturbative method. The numerical plots show that, as a function of momentum the vacuum occupation number is isotropic for a motion speed v = 0 and anisotropic for nonzero v. Due to energy transfer between the plates, the process of relative motion induces on-shell excitations, similar to the dissipative process of the Schwinger effect. Therefore, we can study the motion-induced dissipation effects and the dissipative forces via quantum action. The numerical results demonstrate that both the imaginary part of the quantum action for the motion boost and the dissipative force have a threshold as a function of v, and both are positively correlated with v.
翻訳日:2024-08-26 14:30:32 公開日:2024-08-23
# 合成データの有効性評価のための密度比フレームワーク

A density ratio framework for evaluating the utility of synthetic data ( http://arxiv.org/abs/2408.13167v1 )

ライセンス: Link先を確認
Thom Benjamin Volker, Peter-Paul de Wolf, Erik-Jan van Kesteren, (参考訳) 合成データ生成は、プライバシー侵害のリスクを軽減しつつ、機密データの使用を容易にするための有望なテクニックである。 しかし、下流分析タスクにおいて合成データが有用であるためには、十分な品質が必要である。 合成データの有用性を測定するために様々な方法が提案されているが、その結果は不完全あるいは誤解を招くことが多い。 本稿では,合成データの品質評価を改善するために密度比推定法を提案する。 我々は,この枠組みが既存の施策とどのように関連し,また,情報的かつ容易に解釈できるグローバル・ローカル・ユーティリティー対策を生み出すかを示す。 非パラメトリック密度比モデルの自動選択による手動チューニングをほとんど必要としない推定器を開発する。 シミュレーションにより, 密度比推定により, 確立された方法よりも精度の高い大域的効用推定値が得られることがわかった。 実世界のデータアプリケーションは、密度比が合成モデルの洗練を導く方法を示し、下流の分析を改善するために使用できる。 我々は、密度比の推定は、合成データ生成ワークフローにおいて貴重なツールであり、これらの手法をアクセス可能なオープンソースRパッケージ密度比で提供すると結論付けた。

Synthetic data generation is a promising technique to facilitate the use of sensitive data while mitigating the risk of privacy breaches. However, for synthetic data to be useful in downstream analysis tasks, it needs to be of sufficient quality. Various methods have been proposed to measure the utility of synthetic data, but their results are often incomplete or even misleading. In this paper, we propose using density ratio estimation to improve quality evaluation for synthetic data, and thereby the quality of synthesized datasets. We show how this framework relates to and builds on existing measures, yielding global and local utility measures that are informative and easy to interpret. We develop an estimator which requires little to no manual tuning due to automatic selection of a nonparametric density ratio model. Through simulations, we find that density ratio estimation yields more accurate estimates of global utility than established procedures. A real-world data application demonstrates how the density ratio can guide refinements of synthesis models and can be used to improve downstream analyses. We conclude that density ratio estimation is a valuable tool in synthetic data generation workflows and provide these methods in the accessible open source R-package densityratio.
翻訳日:2024-08-26 14:30:32 公開日:2024-08-23
# 共同創造の教訓:包括的手話技術開発の不都合な真実

Lessons in co-creation: the inconvenient truths of inclusive sign language technology development ( http://arxiv.org/abs/2408.13171v1 )

ライセンス: Link先を確認
Maartje De Meulder, Davy Van Landuyt, Rehana Omardeen, (参考訳) AI駆動型言語技術の時代には、手話技術開発における聴覚障害者コミュニティの参加とリーダーシップに対する需要が高まっており、しばしば共同創造と形容される。 本論文は、非公式な観察結果から得られたデータと著者間の協調的かつ反復的な対話を通じて、EU Horizon 2020の2つのプロジェクトであるEASIERとSignONへの欧州連合の関与について検討する。 これらのプロジェクトは、署名された言語と音声言語の間でモバイル翻訳アプリケーションを開発することを目的としており、主に難聴の非署名技術の専門家と、大規模多言語コンソーシアムにおける聴覚障害者を代表する組織が集まっている。 共同創造は、しばしば研究を行う最良の方法または必要不可欠な方法として提示されるが、しばしば権力不均衡とトークン主義の体系的な問題を隠蔽する。 これらのプロジェクトのEUDの経験から、私たちは、共同創造に関するいくつかの不都合な真実を強調し、将来のイニシアチブとして、聴覚障害者の目に見えない労働を仕事として認識すること、技術に対する期待の管理、共同創造プロセスのクリーニング、共同創造の疲労を軽減するための代替方法を模索すること、交差点からのフィードバックを求めること、コ創造が単なる美徳なシグナリングではないこと、AI手話研究における聴覚障害者のリーダーシップを促進すること、の7つの教訓を提案する。 我々は、現状を根本的に変化させ、競技場をレベルづけする変革的活動として、共創を主張する。 これにより、聴覚障害研究者の数が増加し、聴覚障害コミュニティにおけるAIリテラシーを高める必要がある。 これらの重要な変革行動がなければ、共同創造のリスクは、単に聴覚障害のコミュニティにリップサービスを払うだけである。

In the era of AI-driven language technologies, there is a growing demand for the participation and leadership of deaf communities in sign language technology development, often framed as co-creation. This paper, developed through collaborative and iterative dialogue between the authors with data from informal participant observations, examines the involvement of the European Union of the Deaf in two EU Horizon 2020 projects, EASIER and SignON. These projects aimed to develop mobile translation applications between signed and spoken languages, bringing together predominantly hearing, non-signing technology experts with predominantly hearing sign language academics and organizations representing deaf end users in large multi-partner consortia. While co-creation is sometimes presented as the best or required way to do research or even as emancipatory, it frequently masks systemic issues of power imbalances and tokenism. Drawing from EUD's experiences of these projects, we highlight several inconvenient truths of co-creation, and propose seven lessons for future initiatives: recognizing deaf partners' invisible labour as work, managing expectations about technologies, cripping co-creation processes, exploring alternative methods to mitigate co-creation fatigue, seeking intersectional feedback, ensuring co-creation is not just virtue signalling, and fostering deaf leadership in AI sign language research. We argue for co-creation as a transformative activity that fundamentally alters the status quo and levels the playing field. This necessitates increasing the number of deaf researchers and enhancing AI literacy among deaf communities. Without these critical transformative actions, co-creation risks merely paying lip service to deaf communities.
翻訳日:2024-08-26 14:30:32 公開日:2024-08-23
# IoTデバイスの弱さと攻撃パターン予測に向けて

Towards Weaknesses and Attack Patterns Prediction for IoT Devices ( http://arxiv.org/abs/2408.13172v1 )

ライセンス: Link先を確認
Carlos A. Rivera A., Arash Shaghaghi, Gustavo Batista, Salil S. Kanhere, (参考訳) IoT(Internet of Things)デバイスの採用が企業環境において増加し続けている中、効率的かつ効率的なセキュリティ対策の必要性がますます重要になっている。 本稿では、潜在的な弱点と関連する攻撃パターンを予測することにより、IoTデバイスの事前デプロイセキュリティチェックを容易にするための費用効率のよいプラットフォームを提案する。 このプラットフォームでは、双方向長短期メモリ(Bidirectional Long Short-Term Memory, Bi-LSTM)ネットワークを使用して、デバイス関連のテキストデータを分析し、弱点を予測する。 同時に、グラディエントブースティングマシン(GBM)モデルは、これらの弱点を悪用する可能性のある攻撃パターンを予測する。 National Vulnerability Database(NVD)とパブリックアクセス可能なIoTデータソースから算出されたデータセットで評価すると、システムは高い精度と信頼性を示す。 このソリューションのために作成されたデータセットは、一般公開されている。

As the adoption of Internet of Things (IoT) devices continues to rise in enterprise environments, the need for effective and efficient security measures becomes increasingly critical. This paper presents a cost-efficient platform to facilitate the pre-deployment security checks of IoT devices by predicting potential weaknesses and associated attack patterns. The platform employs a Bidirectional Long Short-Term Memory (Bi-LSTM) network to analyse device-related textual data and predict weaknesses. At the same time, a Gradient Boosting Machine (GBM) model predicts likely attack patterns that could exploit these weaknesses. When evaluated on a dataset curated from the National Vulnerability Database (NVD) and publicly accessible IoT data sources, the system demonstrates high accuracy and reliability. The dataset created for this solution is publicly accessible.
翻訳日:2024-08-26 14:30:32 公開日:2024-08-23
# 開系ボゾン輸送のためのハートリー近似を用いた第3の量子化

Third quantization with Hartree approximation for open-system bosonic transport ( http://arxiv.org/abs/2408.13174v1 )

ライセンス: Link先を確認
Fernando Espinoza-Ortiz, Chih-Chun Chien, (参考訳) ボソンに対する第3の量子化 (3rd Q) は、二次ハミルトニアンのリンドブラッド方程式の正確な定常解を与える。 ハーツリー近似に従ってボース・ハバードモデル(BHM)の相互作用を分解することにより、定常状態の弱い相互作用を持つ開系ボソニックリンドブラッド方程式を解くための自己整合形式を提示する。 ハーツリー近似を持つ第3のQは、ボソンの無限のフォック空間を考慮に入れ、その資源の需要はシステムサイズと多項式的にスケールする。 本手法は、一様鎖、相互作用誘起ダイオード効果、Su-Schrieffer-Heeger (SSH) Hubbardモデルを含むBHMの3つの例を分析して検討する。 小系に対する上限ボソン数によるシミュレーションと比較すると、ハートリー近似による第3Qは定性的挙動を捉え、定常値の上界を示唆する。 したがって、Hartree近似を用いた管理可能な第3Qは、コールド原子実験に関連する相互作用ボゾン系における量子輸送の大規模系の挙動を特徴づけ、予測することができる。

The third quantization (3rd Q) for bosons provides the exact steady-state solution of the Lindblad equation with quadratic Hamiltonians. By decomposing the interaction of the Bose Hubbard model (BHM) according to Hartree approximation, we present a self-consistent formalism for solving the open-system bosonic Lindblad equation with weak interactions in the steady state. The 3rd Q with Hartree approximation takes into account the infinite Fock space of bosons while its demand of resource scales polynomially with the system size. We examine the method by analyzing three examples of the BHM, including the uniform chain, interaction induced diode effect, and Su-Schrieffer-Heeger (SSH) Hubbard model. When compared with the simulations with capped boson numbers for small systems, the 3rd Q with Hartree approximation captures the qualitative behavior and suggests an upper bound of the steady-state value. Thus, the manageable 3rd Q with Hartree approximation allows us to characterize and predict large-system behavior of quantum transport in interacting bosonic systems relevant to cold-atom experiments.
翻訳日:2024-08-26 14:30:32 公開日:2024-08-23
# 盲人・低視野者ナビゲーションにおける地殻物体の同定

Identifying Crucial Objects in Blind and Low-Vision Individuals' Navigation ( http://arxiv.org/abs/2408.13175v1 )

ライセンス: Link先を確認
Md Touhidul Islam, Imran Kabir, Elena Ariel Pearce, Md Alimoor Reza, Syed Masum Billah, (参考訳) 本稿では,道路,歩道,屋内環境を包含する盲人・低視者(BLV)のナビゲーションに不可欠な90のオブジェクトのキュレートリストについて述べる。 BLVの個人が様々な設定をナビゲートした21の公開ビデオを分析して、初期リストを作成する。 そこで我々は,視力,視力,視力の低いBLV個体群を対象とした焦点群研究からフィードバックを得て,リストを精査する。 その後の分析では、最近のコンピュータビジョンモデルのトレーニングに使われているほとんどの現代のデータセットは、提案したリストにあるオブジェクトの小さなサブセットしか含まないことが明らかとなった。 さらに、オリジナル21ビデオから派生した31ビデオセグメントにまたがる90のオブジェクトに対して、詳細なオブジェクトラベルを提供する。 最後に、31ビデオセグメントのオブジェクトリスト、21のビデオ、およびオブジェクトラベルを公開します。 本稿では,既存のギャップを埋め,BLVコミュニティにおけるより包括的で効果的なナビゲーション支援の開発を促進することを目的とする。

This paper presents a curated list of 90 objects essential for the navigation of blind and low-vision (BLV) individuals, encompassing road, sidewalk, and indoor environments. We develop the initial list by analyzing 21 publicly available videos featuring BLV individuals navigating various settings. Then, we refine the list through feedback from a focus group study involving blind, low-vision, and sighted companions of BLV individuals. A subsequent analysis reveals that most contemporary datasets used to train recent computer vision models contain only a small subset of the objects in our proposed list. Furthermore, we provide detailed object labeling for these 90 objects across 31 video segments derived from the original 21 videos. Finally, we make the object list, the 21 videos, and object labeling in the 31 video segments publicly available. This paper aims to fill the existing gap and foster the development of more inclusive and effective navigation aids for the BLV community.
翻訳日:2024-08-26 14:30:31 公開日:2024-08-23
# 変分量子アルゴリズムを用いた重力波マッチングフィルタ

Gravitational-wave matched filtering with variational quantum algorithms ( http://arxiv.org/abs/2408.13177v1 )

ライセンス: Link先を確認
Jason Pye, Edric Matwiejew, Aidan Smith, Manoj Kovalam, Jingbo B. Wang, Linqing Wen, (参考訳) 本稿では,重力波検出におけるマッチングフィルタ問題に対する古典最適化のための変分量子アルゴリズムの適用について検討する。 重力波信号を検出するためのマッチングフィルタは、多数のテンプレート波形を探索し、検出器データのセグメントと高い相関関係を持つものを見つける必要がある。 この計算集約的なタスクは、フォローアップされたマルチセンサー観測を支援するために、低レイテンシ検索のために迅速に行う必要がある。 本研究は,QAOA(Quantum Approximate Optimization Algorithm)の量子ウォークに基づく一般化からなる。 LIGOのオープンサイエンスデータを用いた量子アルゴリズムの古典的数値シミュレーションの結果について述べる。 これらの結果から, 実験された変分量子アルゴリズムは非構造化の制限深度グロバー探索アルゴリズムにより性能が向上し, 後者が計算処理に最適であることが示唆された。

In this paper, we explore the application of variational quantum algorithms designed for classical optimization to the problem of matched filtering in the detection of gravitational waves. Matched filtering for detecting gravitational wave signals requires searching through a large number of template waveforms, to find one which is highly correlated with segments of detector data. This computationally intensive task needs to be done quickly for low latency searches in order to aid with follow-up multi-messenger observations. The variational quantum algorithms we study for this task consist of quantum walk-based generalizations of the Quantum Approximate Optimization Algorithm (QAOA). We present results of classical numerical simulations of these quantum algorithms using open science data from LIGO. These results show that the tested variational quantum algorithms are outperformed by an unstructured restricted-depth Grover search algorithm, suggesting that the latter is optimal for this computational task.
翻訳日:2024-08-26 14:30:31 公開日:2024-08-23
# 機能的ランダム林:アドホック条件による分類と機能的主成分の重要性

Augmented Functional Random Forests: Classifier Construction and Unbiased Functional Principal Components Importance through Ad-Hoc Conditional Permutations ( http://arxiv.org/abs/2408.13179v1 )

ライセンス: Link先を確認
Fabrizio Maturo, Annamaria Porreca, (参考訳) 本稿では,関数型データ解析(FDA)と木に基づく手法を統合し,高次元データの課題に対処し,既存の関数型分類器の分類性能を向上させる,新しい教師付き分類戦略を提案する。 具体的には,機能的分類木と機能的ランダム林の拡張版を提案し,機能的主成分の重要性を評価するための新しいツールを取り入れた。 本発明のツールは、特に連続デリバティブから派生した相関特徴を扱う際に、機能データにおける非バイアスな置換特徴の重要度を決定するためのアドホックな方法を提供する。 本研究は,これらの特徴が機能分類器の予測能力を大幅に向上させることを示す。 実世界のデータセットとシミュレーションデータセットの両方で実験により,提案手法の有効性が示され,既存の手法と比較して有望な結果が得られた。

This paper introduces a novel supervised classification strategy that integrates functional data analysis (FDA) with tree-based methods, addressing the challenges of high-dimensional data and enhancing the classification performance of existing functional classifiers. Specifically, we propose augmented versions of functional classification trees and functional random forests, incorporating a new tool for assessing the importance of functional principal components. This tool provides an ad-hoc method for determining unbiased permutation feature importance in functional data, particularly when dealing with correlated features derived from successive derivatives. Our study demonstrates that these additional features can significantly enhance the predictive power of functional classifiers. Experimental evaluations on both real-world and simulated datasets showcase the effectiveness of the proposed methodology, yielding promising results compared to existing methods.
翻訳日:2024-08-26 14:30:31 公開日:2024-08-23
# 移植学習とカスタムCNNアーキテクチャを用いた肺疾患分類のための深層学習

Deep Learning for Lung Disease Classification Using Transfer Learning and a Customized CNN Architecture with Attention ( http://arxiv.org/abs/2408.13180v1 )

ライセンス: Link先を確認
Xiaoyi Liu, Zhou Yu, Lianghao Tan, (参考訳) 毎年肺疾患で死亡する人が多い。 X線は肺疾患と診断されるかどうかを検査する有効な方法である。 本研究は、健康な肺を描写するX線、肺不透明度を示すX線、ウイルス性肺炎を示すX線を分類することに集中する。 早期に正確な診断が重要である。 本稿では,Lung X-ray Image Datasetで5種類の事前学習モデルをテストする。 SqueezeNet, VGG11, ResNet18, DenseNet, MobileNetV2はそれぞれ0.64, 0.85, 0.87, 0.88, 0.885の精度を達成した。 MobileNetV2は、最高のパフォーマンスの事前トレーニングモデルとして、ベースモデルとしてさらに分析される。 最終的に,我々のモデルであるMobileNet-Lungは,微細な調整と特徴層内の注意層を付加し,肺疾患分類課題に取り組むために発明され,0.933の精度を実現した。 この結果は、事前訓練された5つのモデルと比較して大幅に改善されている。

Many people die from lung-related diseases every year. X-ray is an effective way to test if one is diagnosed with a lung-related disease or not. This study concentrates on categorizing three distinct types of lung X-rays: those depicting healthy lungs, those showing lung opacities, and those indicative of viral pneumonia. Accurately diagnosing the disease at an early phase is critical. In this paper, five different pre-trained models will be tested on the Lung X-ray Image Dataset. SqueezeNet, VGG11, ResNet18, DenseNet, and MobileNetV2 achieved accuracies of 0.64, 0.85, 0.87, 0.88, and 0.885, respectively. MobileNetV2, as the best-performing pre-trained model, will then be further analyzed as the base model. Eventually, our own model, MobileNet-Lung based on MobileNetV2, with fine-tuning and an additional layer of attention within feature layers, was invented to tackle the lung disease classification task and achieved an accuracy of 0.933. This result is significantly improved compared with all five pre-trained models.
翻訳日:2024-08-26 14:30:31 公開日:2024-08-23
# LLMはプロンプト工学に基づく良いパスプランナーになれるか?

Can LLM be a Good Path Planner based on Prompt Engineering? Mitigating the Hallucination for Path Planning ( http://arxiv.org/abs/2408.13184v1 )

ライセンス: Link先を確認
Hourui Deng, Hongjie Zhang, Jie Ou, Chaosheng Feng, (参考訳) 大規模言語モデル(LLM)における空間的推論は、インテリジェンスを具現化する基盤である。 しかし、単純な迷路環境においても、LLMは長期的な経路計画の課題に直面しており、その主な影響は、空間幻覚と長期的推論による文脈的不整合幻覚である。 そこで本研究では,空間-関係変換とカリキュラムQ-Learning(S2RCQL)という,革新的なモデルを提案する。 LLMの空間幻覚に対処するために、空間的プロンプトを実体関係と実体関係チェーンを表す経路に変換する空間-相対的アプローチを提案する。 このアプローチは、逐次的思考の観点から LLM の可能性を完全に活用する。 その結果,LLMの推論能力を高める文脈不整合幻覚を軽減するため,Qラーニングに基づく経路計画アルゴリズムを設計した。 状態反応のQ-値を補助情報としてLLMの幻覚を補正し、LLMに最適な経路を学習させる。 最後に,LLMに基づく逆カリキュラム学習手法を提案する。 LLMは、タスクの難しさを減らし、より複雑なタスクに取り組むためにそれらを活用することで、成功するエクスペリエンスを迅速に蓄積することができる。 Baidu の自己開発 LLM: ERNIE-Bot 4.0 に基づいた総合実験を行った。 その結果、我々のS2RCQLは、高度なプロンプトエンジニアリングと比較して、成功率と最適率の両方で23%--40%改善したことがわかった。

Spatial reasoning in Large Language Models (LLMs) is the foundation for embodied intelligence. However, even in simple maze environments, LLMs still encounter challenges in long-term path-planning, primarily influenced by their spatial hallucination and context inconsistency hallucination by long-term reasoning. To address this challenge, this study proposes an innovative model, Spatial-to-Relational Transformation and Curriculum Q-Learning (S2RCQL). To address the spatial hallucination of LLMs, we propose the Spatial-to-Relational approach, which transforms spatial prompts into entity relations and paths representing entity relation chains. This approach fully taps the potential of LLMs in terms of sequential thinking. As a result, we design a path-planning algorithm based on Q-learning to mitigate the context inconsistency hallucination, which enhances the reasoning ability of LLMs. Using the Q-value of state-action as auxiliary information for prompts, we correct the hallucinations of LLMs, thereby guiding LLMs to learn the optimal path. Finally, we propose a reverse curriculum learning technique based on LLMs to further mitigate the context inconsistency hallucination. LLMs can rapidly accumulate successful experiences by reducing task difficulty and leveraging them to tackle more complex tasks. We performed comprehensive experiments based on Baidu's self-developed LLM: ERNIE-Bot 4.0. The results showed that our S2RCQL achieved a 23%--40% improvement in both success and optimality rates compared with advanced prompt engineering.
翻訳日:2024-08-26 14:30:31 公開日:2024-08-23
# 幾何学情報を用いたk-means++アルゴリズムの高速化

Accelerating the k-means++ Algorithm by Using Geometric Information ( http://arxiv.org/abs/2408.13189v1 )

ライセンス: Link先を確認
Guillem Rodríguez Corominas, Maria J. Blesa, Christian Blum, (参考訳) 本稿では,幾何情報,特に三角不等式と追加のノルムフィルタを用いた正確なk-means++アルゴリズムの高速化と2段階のサンプリング手順を提案する。 我々の実験では、アクセラレーションされたバージョンは訪問点数や距離計算の点で標準k-means++バージョンよりも優れており、クラスタ数が増加するにつれて高速化が達成されている。 三角不等式を利用するバージョンは、低次元データに特に有効であるが、追加のノルムベースフィルタは、点間のノルムのばらつきが大きい高次元インスタンスの性能を高める。 追加実験では、複数のジョブで並列に実行されるアルゴリズムの挙動を示し、メモリ性能が実用的なスピードアップにどのように影響するかを調べる。

In this paper, we propose an acceleration of the exact k-means++ algorithm using geometric information, specifically the Triangle Inequality and additional norm filters, along with a two-step sampling procedure. Our experiments demonstrate that the accelerated version outperforms the standard k-means++ version in terms of the number of visited points and distance calculations, achieving greater speedup as the number of clusters increases. The version utilizing the Triangle Inequality is particularly effective for low-dimensional data, while the additional norm-based filter enhances performance in high-dimensional instances with greater norm variance among points. Additional experiments show the behavior of our algorithms when executed concurrently across multiple jobs and examine how memory performance impacts practical speedup.
翻訳日:2024-08-26 14:30:30 公開日:2024-08-23
# IFH:グラフ生成モデルのフレキシブル設計のための拡散フレームワーク

IFH: a Diffusion Framework for Flexible Design of Graph Generative Models ( http://arxiv.org/abs/2408.13194v1 )

ライセンス: Link先を確認
Samuel Cognolato, Alessandro Sperduti, Luciano Serafini, (参考訳) グラフ生成モデルは,1行にグラフを生成するワンショットモデルと,ノードとエッジの連続的な付加によるグラフを生成するシーケンシャルモデルという,2つの顕著なファミリーに分類される。 理想的には、これら2つの極端なモデルの間には、異なるシーケンシャルなレベルのモデルが連続的に存在する。 本稿では,逐次度を規定するグラフ生成モデルであるInsert-Fill-Halt(IFH)を提案する。 IFH は Denoising Diffusion Probabilistic Models (DDPM) の理論に基づいており、グラフを徐々に破壊するノード除去プロセスを設計している。 挿入処理は、所定の順序度に応じてアークとノードを挿入することにより、この除去プロセスの反転を学習する。 IFHの性能は, 品質, 実行時間, メモリの順に異なる。 また,拡散型ワンショットモデルであるDiGressをIFHの生成ステップとして使用することにより,モデル自体の改善が図られ,現在の最先端技術と競合することを示す。

Graph generative models can be classified into two prominent families: one-shot models, which generate a graph in one go, and sequential models, which generate a graph by successive additions of nodes and edges. Ideally, between these two extreme models lies a continuous range of models that adopt different levels of sequentiality. This paper proposes a graph generative model, called Insert-Fill-Halt (IFH), that supports the specification of a sequentiality degree. IFH is based upon the theory of Denoising Diffusion Probabilistic Models (DDPM), designing a node removal process that gradually destroys a graph. An insertion process learns to reverse this removal process by inserting arcs and nodes according to the specified sequentiality degree. We evaluate the performance of IFH in terms of quality, run time, and memory, depending on different sequentiality degrees. We also show that using DiGress, a diffusion-based one-shot model, as a generative step in IFH leads to improvement to the model itself, and is competitive with the current state-of-the-art.
翻訳日:2024-08-26 14:30:30 公開日:2024-08-23
# NAS-Cap:ニューラルアーキテクチャ検索とデータ拡張によるディープラーニング駆動型3次元キャパシタンス抽出

NAS-Cap: Deep-Learning Driven 3-D Capacitance Extraction with Neural Architecture Search and Data Augmentation ( http://arxiv.org/abs/2408.13195v1 )

ライセンス: Link先を確認
Haoyuan Li, Dingcheng Yang, Chunyan Pei, Wenjian Yu, (参考訳) 高度なプロセス技術の下で集積回路を設計するためには、より正確なキャパシタンス抽出が要求される。 キャパシタンス抽出のためのパターンマッチング手法とフィールドソルバは,それぞれ不正確さと計算コストの欠点を有する。 最近の研究である“cite{yang2023cnn}”では、グリッドベースのデータ表現と畳み込みニューラルネットワーク(CNN)ベースの容量モデル(CNN-Cap)が提案されている。 本研究では,3次元キャパシタンス抽出のための優れたCNNモデルをトレーニングするために,ニューラルアーキテクチャサーチ(NAS)とデータ拡張技術を提案する。 異なる設計によるデータセットによる実験結果から、得られたNAS-Capモデルは、CNN-Capよりもはるかに高い精度を実現し、モデル記憶のための推論と空間のランタイムを少なくすることが示された。 一方、NASの転送性は、かつて検索されたアーキテクチャが、異なる設計および/またはプロセス技術からテストケースの結合/対数容量に類似したエラー低減をもたらしたため、検証される。

More accurate capacitance extraction is demanded for designing integrated circuits under advanced process technology. The pattern matching approach and the field solver for capacitance extraction have the drawbacks of inaccuracy and large computational cost, respectively. Recent work \cite{yang2023cnn} proposes a grid-based data representation and a convolutional neural network (CNN) based capacitance models (called CNN-Cap), which opens the third way for 3-D capacitance extraction to get accurate results with much less time cost than field solver. In this work, the techniques of neural architecture search (NAS) and data augmentation are proposed to train better CNN models for 3-D capacitance extraction. Experimental results on datasets from different designs show that the obtained NAS-Cap models achieve remarkably higher accuracy than CNN-Cap, while consuming less runtime for inference and space for model storage. Meanwhile, the transferability of the NAS is validated, as the once searched architecture brought similar error reduction on coupling/total capacitance for the test cases from different design and/or process technology.
翻訳日:2024-08-26 14:30:30 公開日:2024-08-23
# アート・アブ・イニシアト理論の指標としての冷間衝突におけるフェシュバッハ共鳴

Feshbach resonances in cold collisions as a benchmark for state of the art ab initio theory ( http://arxiv.org/abs/2408.13197v1 )

ライセンス: Link先を確認
Karl P. Horn, Meenu Upadhyay, Baruch Margulis, Daniel M. Reich, Edvardas Narevicius, Markus Meuwly, Christiane P. Koch, (参考訳) 衝突や反応における量子共鳴は分子間力の感度の高いプローブである。 冷たい衝突実験(Science 380, 77 (2023))でフェシュバッハ共鳴が最近観測されたように、これらが最後の量子状態分布を支配している可能性がある。 これにより、このような測定の感度が相互作用の理論モデルの品質を評価するのに十分かどうかという疑問が提起される。 ここでは, 測定された衝突断面積を, 3つの異なるアブ初期ポテンシャル表面に対する正確な量子結合チャネル散乱計算値と比較する。 分子自由度に対するエネルギー再分配の正しい予測をテストする能力は限界に達しており、現在の実験ではエネルギー分解能をわずかに改善するしかなかった。 このような改善は、個々の共鳴を分離し、異なる理論アプローチの曖昧な実験的テストを可能にする。

Quantum resonances in collisions and reactions are a sensitive probe of the intermolecular forces. They may dominate the final quantum state distribution, as recently observed for Feshbach resonances in a cold collision experiment (Science 380, 77 (2023)). This raises the question whether the sensitivity of such measurements is sufficient to assess the quality of theoretical models for the interaction. We here compare measured collision cross sections to those obtained with exact quantum coupled-channels scattering calculations for three different ab initio potential energy surfaces. We find that the ability to test the correct prediction of energy redistribution over molecular degrees of freedom is within reach, requiring only a modest improvement in energy resolution of current experiments. Such improvement will enable the separation of individual resonances and allow for an unambiguous experimental test of different theory approaches.
翻訳日:2024-08-26 14:30:30 公開日:2024-08-23
# EAViT:オーディオ分類のための外部注意覚変換器

EAViT: External Attention Vision Transformer for Audio Classification ( http://arxiv.org/abs/2408.13201v1 )

ライセンス: Link先を確認
Aquib Iqbal, Abid Hasan Zim, Md Asaduzzaman Tonmoy, Limengnan Zhou, Asad Malik, Minoru Kuribayashi, (参考訳) 本稿では,音声分類精度の向上を目的とした新しいアプローチであるEAViTモデルを提案する。 デジタルオーディオリソースの普及に伴い、音楽ストリーミングプラットフォームや環境音認識など様々なアプリケーションにおいて、レコメンデーションシステムの改善やユーザパーソナライズの必要性から、正確で効率的なオーディオ分類システムへの需要が高まっている。 膨大なオーディオライブラリを一貫性のあるカテゴリに分類するためには,正確な音声分類が不可欠である。 本研究では,10種類のジャンルにまたがる1,000曲からなるGTZANデータセットを用いた。 それぞれの30秒のオーディオクリップを3秒の抜粋に分割して、データセットの堅牢性を高め、オーバーフィッティングリスクを軽減し、よりきめ細かい特徴分析を可能にする。 EAViTモデルは、マルチヘッド外部注意(MEA)機構をビジョントランスフォーマー(ViT)フレームワークに統合し、長距離依存関係とサンプル間の潜在的な相関を効果的に捉える。 この外部アテンション(EA)機構は学習可能なメモリユニットを使用し、複雑なオーディオ機能を効率的に処理するネットワークの能力を高める。 この研究はEAViTが93.99%の精度を達成し、最先端のモデルを上回ることを示した。

This paper presents the External Attention Vision Transformer (EAViT) model, a novel approach designed to enhance audio classification accuracy. As digital audio resources proliferate, the demand for precise and efficient audio classification systems has intensified, driven by the need for improved recommendation systems and user personalization in various applications, including music streaming platforms and environmental sound recognition. Accurate audio classification is crucial for organizing vast audio libraries into coherent categories, enabling users to find and interact with their preferred audio content more effectively. In this study, we utilize the GTZAN dataset, which comprises 1,000 music excerpts spanning ten diverse genres. Each 30-second audio clip is segmented into 3-second excerpts to enhance dataset robustness and mitigate overfitting risks, allowing for more granular feature analysis. The EAViT model integrates multi-head external attention (MEA) mechanisms into the Vision Transformer (ViT) framework, effectively capturing long-range dependencies and potential correlations between samples. This external attention (EA) mechanism employs learnable memory units that enhance the network's capacity to process complex audio features efficiently. The study demonstrates that EAViT achieves a remarkable overall accuracy of 93.99%, surpassing state-of-the-art models.
翻訳日:2024-08-26 14:20:44 公開日:2024-08-23
# Instruct-DeBERTa:テキストレビューにおけるアスペクトベース感性分析のためのハイブリッドアプローチ

Instruct-DeBERTa: A Hybrid Approach for Aspect-based Sentiment Analysis on Textual Reviews ( http://arxiv.org/abs/2408.13202v1 )

ライセンス: Link先を確認
Dineth Jayakody, A V A Malkith, Koshila Isuranda, Vishal Thenuwara, Nisansa de Silva, Sachintha Rajith Ponnamperuma, G G N Sandamali, K L K Sudheera, (参考訳) Aspect-based Sentiment Analysis (ABSA)は、自然言語処理(NLP)における重要なタスクであり、テキスト内の特定の側面に関連する感情を抽出し、顧客の意見に深い洞察を提供する。 従来の感情分析手法は、全体的な感情を決定するのに有用だが、特定の製品やサービス機能に関する暗黙の意見を見逃すことが多い。 本稿では,レキシコンベースのアプローチから機械学習,深層学習技術まで,ABSA方法論の進化を包括的に概観する。 我々はトランスフォーマーベースモデル、特に、ABSAタスクに新たなベンチマークを設定した変換器(BERT)とその変種による双方向エンコーダ表現(Bidirectional Encoder Representations)の最近の進歩を強調した。 本研究では,Llama と Mistral モデルの微調整,SetFit フレームワークを用いたハイブリッドモデルの構築,およびアスペクト項抽出 (ATE) とアスペクト感性分類 (ASC) のためのSOTA (State-of-the-art) Transformer-based model) の強みを利用した独自のモデルの開発に注力した。 我々のハイブリッドモデルであるInstruct - DeBERTaはアスペクト抽出にSOTA InstructABSAを使用し、DeBERTa-V3-baseabsa-V1はアスペクト感情分類に使用しています。 異なるドメインからのデータセットを使用して、モデルの性能を評価します。 実験の結果,提案したハイブリッドモデルにより,すべての実験領域における感情分析の精度と信頼性が大幅に向上することが示唆された。 我々のハイブリッドモデルであるInstruct - DeBERTaは、SemEval restaurant 2014とSemEval laptop 2014データセットの両方で、ATEとASCのジョイントタスクの最高のパフォーマンスモデルです。 既存手法の限界に対処することにより、当社のアプローチは、消費者からの詳細なフィードバックを理解するための堅牢なソリューションを提供し、顧客満足度と製品開発を高めることを目的としたビジネスに貴重な洞察を提供する。

Aspect-based Sentiment Analysis (ABSA) is a critical task in Natural Language Processing (NLP) that focuses on extracting sentiments related to specific aspects within a text, offering deep insights into customer opinions. Traditional sentiment analysis methods, while useful for determining overall sentiment, often miss the implicit opinions about particular product or service features. This paper presents a comprehensive review of the evolution of ABSA methodologies, from lexicon-based approaches to machine learning and deep learning techniques. We emphasize the recent advancements in Transformer-based models, particularly Bidirectional Encoder Representations from Transformers (BERT) and its variants, which have set new benchmarks in ABSA tasks. We focused on finetuning Llama and Mistral models, building hybrid models using the SetFit framework, and developing our own model by exploiting the strengths of state-of-the-art (SOTA) Transformer-based models for aspect term extraction (ATE) and aspect sentiment classification (ASC). Our hybrid model Instruct - DeBERTa uses SOTA InstructABSA for aspect extraction and DeBERTa-V3-baseabsa-V1 for aspect sentiment classification. We utilize datasets from different domains to evaluate our model's performance. Our experiments indicate that the proposed hybrid model significantly improves the accuracy and reliability of sentiment analysis across all experimented domains. As per our findings, our hybrid model Instruct - DeBERTa is the best-performing model for the joint task of ATE and ASC for both SemEval restaurant 2014 and SemEval laptop 2014 datasets separately. By addressing the limitations of existing methodologies, our approach provides a robust solution for understanding detailed consumer feedback, thus offering valuable insights for businesses aiming to enhance customer satisfaction and product development.
翻訳日:2024-08-26 14:20:44 公開日:2024-08-23
# DOMAINEVAL: マルチドメインコード生成のための自動構築ベンチマーク

DOMAINEVAL: An Auto-Constructed Benchmark for Multi-Domain Code Generation ( http://arxiv.org/abs/2408.13204v1 )

ライセンス: Link先を確認
Qiming Zhu, Jialun Cao, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun, Shing-Chi Cheung, (参考訳) HumanEvalのようなコードベンチマークは、Large Language Models(LLM)の機能を評価するために広く採用されており、その長所と短所に関する洞察を提供する。 しかしながら、現在のベンチマークでは、一般的なコーディングタスク(例えば、バブルソート、最大の共通ディバイザ)にLLMの能力を行使し、ドメイン固有のコーディングタスク(例えば、計算、システム、暗号)を未探索のまま残している。 このギャップを埋めるために、LLMの符号化能力を徹底的に評価するために設計されたマルチドメインコードベンチマークであるDOMAINEVALを提案する。 私たちのパイプラインは完全に自動化され、コードリポジトリから研究対象のフォーマットへのプッシュボットの構築が可能になります。 DOMAINEVALに対する12種類のLDMを評価したところ,興味深い結果が得られた。 LLMは一般に計算処理が得意であるが,暗号処理やシステムコーディング処理では不足している。 性能差は68.94% (80.94% - 12.0%) にも達する。 また、より多くのサンプルを生成することで、LLMの全体的な性能が向上し、ドメインバイアスが増大する可能性があることも観察した。 本研究のコントリビューションには、コード生成ベンチマークデータセットであるDOMAINEVAL、コードベンチマークを構築するための完全に自動化されたパイプライン、DOMAINEVALのパフォーマンスに基づくコード生成タスクにおけるLLMの制限の識別が含まれており、今後の研究改善の道筋を提供する。 リーダーボードはhttps://domaineval.github.io/.com/で入手できる。

Code benchmarks such as HumanEval are widely adopted to evaluate the capabilities of Large Language Models (LLMs), providing insights into their strengths and weaknesses. However, current benchmarks primarily exercise LLMs' capability on common coding tasks (e.g., bubble sort, greatest common divisor), leaving domain-specific coding tasks (e.g., computation, system, cryptography) unexplored. To fill this gap, we propose a multi-domain code benchmark, DOMAINEVAL, designed to evaluate LLMs' coding capabilities thoroughly. Our pipeline works in a fully automated manner, enabling a push-bottom construction from code repositories into formatted subjects under study. Interesting findings are observed by evaluating 12 representative LLMs against DOMAINEVAL. We notice that LLMs are generally good at computation tasks while falling short on cryptography and system coding tasks. The performance gap can be as much as 68.94% (80.94% - 12.0%) in some LLMs. We also observe that generating more samples can increase the overall performance of LLMs, while the domain bias may even increase. The contributions of this study include a code generation benchmark dataset DOMAINEVAL, encompassing six popular domains, a fully automated pipeline for constructing code benchmarks, and an identification of the limitations of LLMs in code generation tasks based on their performance on DOMAINEVAL, providing directions for future research improvements. The leaderboard is available at https://domaineval.github.io/.
翻訳日:2024-08-26 14:20:44 公開日:2024-08-23
# 2部グラフ上でMAX-CUTを解くための再帰QAOAの改善

Improved Recursive QAOA for Solving MAX-CUT on Bipartite Graphs ( http://arxiv.org/abs/2408.13207v1 )

ライセンス: Link先を確認
Eunok Bae, Hyukjoon Kwon, V Vijendran, Soojoon Lee, (参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)は、MAX-CUT問題などの組合せ最適化問題を解くことを目的として提案された量子古典ハイブリッドアルゴリズムである。 ノイズ中間スケール量子(NISQ)時代に量子優位を達成する可能性があり、広く研究されている。 しかし、低レベルのQAOAの性能制限は、様々なインスタンスで実証されている。 本研究ではまず,二部グラフ上のMAX-CUT問題の解法におけるレベル1QAOAの性能限界を解析的に証明する。 両部グラフの平均次数に基づいて近似比の上限を導出する。 第2に、QAOAをサブルーチンとして用いたQAOAの変種であるレベル1再帰QAOA(RQAOA)を用いて、グラフサイズを再帰的に低減し、元のQAOAより優れるが、グラフサイズが大きくなるにつれて制限を示す。 これらの制約に対処するため、我々はQAOAサブルーチンに最適化されたパラメータ構造を縮小する修正RQAOAを提案する。 最適化空間を小さくすると、真の最適パラメータを見つけることがより困難になるが、興味深いことに、この修正されたRQAOAは、すべての重み付き二部グラフを含むパリティ分割グラフの正確な最大カットを見つけることができる。

Quantum Approximate Optimization Algorithm (QAOA) is a quantum-classical hybrid algorithm proposed with the goal of approximately solving combinatorial optimization problems such as the MAX-CUT problem. It has been considered a potential candidate for achieving quantum advantage in the Noisy Intermediate-Scale Quantum (NISQ) era and has been extensively studied. However, the performance limitations of low-level QAOA have also been demonstrated across various instances. In this work, we first analytically prove the performance limitations of level-1 QAOA in solving the MAX-CUT problem on bipartite graphs. We derive an upper bound for the approximation ratio based on the average degree of bipartite graphs. Second, we show through numerical results that solving the same problem using level-1 Recursive QAOA (RQAOA), which is one of the variants of QAOA that uses QAOA as a subroutine to reduce the graph size recursively, outperforms the original QAOA but still exhibits limitations as the graph size increases. To address these limitations, we propose a modified RQAOA that reduces the parameter regime optimized in the QAOA subroutine. While reducing the optimization space could generally make it more challenging to find the true optimal parameters, interestingly, we prove that this modified RQAOA can find the exact maximum cut for a parity partitioned graph which includes all weighted bipartite graphs.
翻訳日:2024-08-26 14:20:44 公開日:2024-08-23
# 意思決定問題における時間的公正性

Temporal Fairness in Decision Making Problems ( http://arxiv.org/abs/2408.13208v1 )

ライセンス: Link先を確認
Manuel R. Torres, Parisa Zehtabi, Michael Cashmore, Daniele Magazzeni, Manuela Veloso, (参考訳) 本研究では,意思決定問題における公平性の新たな解釈について考察する。 既存のフェアネスの定式化に基づいて、過去の決定の歴史の公平さを考慮して、時間的視点からフェアネスをどう考えるかに焦点を当てる。 時間的公平性の概念を導入した後、最適化問題として定式化された意思決定問題に時間的公正性を取り入れた3つのアプローチを提案する。 4つの異なる領域における我々のアプローチの質的評価を行い、公平性の時間的側面を考慮しないベースラインアプローチと比較する。

In this work we consider a new interpretation of fairness in decision making problems. Building upon existing fairness formulations, we focus on how to reason over fairness from a temporal perspective, taking into account the fairness of a history of past decisions. After introducing the concept of temporal fairness, we propose three approaches that incorporate temporal fairness in decision making problems formulated as optimization problems. We present a qualitative evaluation of our approach in four different domains and compare the solutions against a baseline approach that does not consider the temporal aspect of fairness.
翻訳日:2024-08-26 14:20:44 公開日:2024-08-23
# ユニタリニューラルネットワークによる最適量子回路設計

Optimal Quantum Circuit Design via Unitary Neural Networks ( http://arxiv.org/abs/2408.13211v1 )

ライセンス: Link先を確認
M. Zomorodi, H. Amini, M. Abbaszadeh, J. Sohrabi, V. Salari, P. Plawiak, (参考訳) 量子アルゴリズムを量子コンピューティングプラットフォームの実装に適した形式に翻訳するプロセスは不可欠だが、難しい。 これは、典型的には複雑なタスクである精度で量子演算を指定することを必要とする。 本稿では,量子回路モデル表現に量子アルゴリズムの機能を合成する自動手法を提案する。 我々の手法は、量子アルゴリズムの多様な入出力マッピングを用いてニューラルネットワークモデルを訓練することを含む。 この訓練されたモデルが、元のアルゴリズムと同等の量子回路モデルを効果的に生成できることを実証する。 注目すべきは、トレーニングされたモデルが、未知の入力をそれぞれの出力にほぼ完璧なマッピングを達成できることである。

The process of translating a quantum algorithm into a form suitable for implementation on a quantum computing platform is crucial but yet challenging. This entails specifying quantum operations with precision, a typically intricate task. In this paper, we present an alternative approach: an automated method for synthesizing the functionality of a quantum algorithm into a quantum circuit model representation. Our methodology involves training a neural network model using diverse input-output mappings of the quantum algorithm. We demonstrate that this trained model can effectively generate a quantum circuit model equivalent to the original algorithm. Remarkably, our observations indicate that the trained model achieves near-perfect mapping of unseen inputs to their respective outputs.
翻訳日:2024-08-26 14:20:44 公開日:2024-08-23
# 大規模言語モデルとディープラーニングによる情報融合に基づくEUR-USD交換レート予測

EUR-USD Exchange Rate Forecasting Based on Information Fusion with Large Language Models and Deep Learning Methods ( http://arxiv.org/abs/2408.13214v1 )

ライセンス: Link先を確認
Hongcheng Ding, Xuanze Zhao, Zixiao Jiang, Shamsul Nahar Abdullah, Deshinta Arrova Dewi, (参考訳) 投資家、企業、政策立案者にとって、EUR/USD為替レートの正確な予測は不可欠である。 本稿では、ニュースや分析からの非構造化テキストデータと、為替レートと金融指標に関する構造化データを統合して、為替レート予測を強化する新しいフレームワークIUSを提案する。 IUSフレームワークは、感情極性スコアリングとテキストの交換レート移動分類のために、大きな言語モデルを採用している。 これらのテキスト機能は量的特徴と組み合わせて、Causality-Driven Feature Generatorに入力する。 次に、オプトゥーナ最適化Bi-LSTMモデルを用いて、EUR/USD交換レートを予測する。 実験の結果、提案手法はベンチマークモデルを上回る性能を示し、MAEを10.69%、RMSEを9.56%削減した。 また、非構造化データと構造化データの組み合わせによるデータ融合の利点も示しており、構造化データ単独よりも高い精度が得られる。 さらに、上位12個の重要な量的特徴とテキスト的特徴を組み合わせた特徴選択が最も有効であることが証明された。 提案したIUSフレームワークとOptuna-Bi-LSTMモデルは、マルチソースデータ統合による為替レート予測のための強力な新しいアプローチを提供する。

Accurate forecasting of the EUR/USD exchange rate is crucial for investors, businesses, and policymakers. This paper proposes a novel framework, IUS, that integrates unstructured textual data from news and analysis with structured data on exchange rates and financial indicators to enhance exchange rate prediction. The IUS framework employs large language models for sentiment polarity scoring and exchange rate movement classification of texts. These textual features are combined with quantitative features and input into a Causality-Driven Feature Generator. An Optuna-optimized Bi-LSTM model is then used to forecast the EUR/USD exchange rate. Experiments demonstrate that the proposed method outperforms benchmark models, reducing MAE by 10.69% and RMSE by 9.56% compared to the best performing baseline. Results also show the benefits of data fusion, with the combination of unstructured and structured data yielding higher accuracy than structured data alone. Furthermore, feature selection using the top 12 important quantitative features combined with the textual features proves most effective. The proposed IUS framework and Optuna-Bi-LSTM model provide a powerful new approach for exchange rate forecasting through multi-source data integration.
翻訳日:2024-08-26 14:20:44 公開日:2024-08-23
# HBIC:不均一データセットのためのビクラスタリングアルゴリズム

HBIC: A Biclustering Algorithm for Heterogeneous Datasets ( http://arxiv.org/abs/2408.13217v1 )

ライセンス: Link先を確認
Adán José-García, Julie Jacques, Clément Chauvet, Vincent Sobanski, Clarisse Dhaenens, (参考訳) Biclusteringは、データマトリックス内で行と列を同時にクラスタすることを目的とした、教師なしの機械学習アプローチである。 数値データセットを扱うために、いくつかのビクラスタリングアルゴリズムが提案されている。 しかし、実世界のデータマイニングの問題は、しばしば混合属性を持つ異種データセットを含む。 この課題に対処するために、HBICと呼ばれる二クラスタ化アプローチを導入し、数値、バイナリ、カテゴリデータを含む複素異種データに有意義な二クラスタを発見できる。 このアプローチは、ビクラスタ生成とビクラスタモデル選択の2つのステージで構成されている。 初期段階では、元の行列の値の頻度に基づいて行や列を追加・削除することにより、複数の候補ビクラスタを反復的に生成する。 第2段階では,そのサイズと均一性を考慮し,最も適切な二クラスターを選択するための2つのアプローチを導入する。 全身性硬化症患者の臨床データを含むバイオメディカル・アプリケーションにおいて, 本手法の総合的ベンチマークへの適合性について検討した。 提案手法を既存手法と比較することにより,異種データから高品質なビクラスタを発見することができることを示す。 我々のビクラスタリングアプローチは異種ビクラスタ発見の出発点であり、複雑な基盤となるデータ構造をよりよく理解します。

Biclustering is an unsupervised machine-learning approach aiming to cluster rows and columns simultaneously in a data matrix. Several biclustering algorithms have been proposed for handling numeric datasets. However, real-world data mining problems often involve heterogeneous datasets with mixed attributes. To address this challenge, we introduce a biclustering approach called HBIC, capable of discovering meaningful biclusters in complex heterogeneous data, including numeric, binary, and categorical data. The approach comprises two stages: bicluster generation and bicluster model selection. In the initial stage, several candidate biclusters are generated iteratively by adding and removing rows and columns based on the frequency of values in the original matrix. In the second stage, we introduce two approaches for selecting the most suitable biclusters by considering their size and homogeneity. Through a series of experiments, we investigated the suitability of our approach on a synthetic benchmark and in a biomedical application involving clinical data of systemic sclerosis patients. The evaluation comparing our method to existing approaches demonstrates its ability to discover high-quality biclusters from heterogeneous data. Our biclustering approach is a starting point for heterogeneous bicluster discovery, leading to a better understanding of complex underlying data structures.
翻訳日:2024-08-26 14:20:44 公開日:2024-08-23
# 同時データ中毒に対する防御

Protecting against simultaneous data poisoning attacks ( http://arxiv.org/abs/2408.13221v1 )

ライセンス: Link先を確認
Neel Alex, Shoaib Ahmed Siddiqui, Amartya Sanyal, David Krueger, (参考訳) 現在のバックドア防御法は、一度に1回の攻撃に対して評価される。 強力な機械学習システムは、インターネットから取り除かれた大規模なデータセットで訓練されるため、これは現実的ではない。 同時に実行されたデータ中毒攻撃は、クリーンな精度を著しく低下させることなく、1つのモデルに複数のバックドアを効果的にインストールできることを実証する。 さらに,既存のバックドア防御手法は,この環境における攻撃を効果的に防ぐことができないことを示す。 最後に,バックドア攻撃の性質に関する洞察を活用して,マルチアタック・セッティングに有効である新しいディフェンス,BaDLossを開発する。 洗浄精度の最小化により、BDLossはCIFAR-10で7.98%、GTSRBで10.29%のマルチアタック成功率を達成した。

Current backdoor defense methods are evaluated against a single attack at a time. This is unrealistic, as powerful machine learning systems are trained on large datasets scraped from the internet, which may be attacked multiple times by one or more attackers. We demonstrate that simultaneously executed data poisoning attacks can effectively install multiple backdoors in a single model without substantially degrading clean accuracy. Furthermore, we show that existing backdoor defense methods do not effectively prevent attacks in this setting. Finally, we leverage insights into the nature of backdoor attacks to develop a new defense, BaDLoss, that is effective in the multi-attack setting. With minimal clean accuracy degradation, BaDLoss attains an average attack success rate in the multi-attack setting of 7.98% in CIFAR-10 and 10.29% in GTSRB, compared to the average of other defenses at 64.48% and 84.28% respectively.
翻訳日:2024-08-26 14:20:44 公開日:2024-08-23
# 部分微分方程式の機械学習手法の概要:物理情報ニューラルネットワークから深層演算子学習へ

An Overview on Machine Learning Methods for Partial Differential Equations: from Physics Informed Neural Networks to Deep Operator Learning ( http://arxiv.org/abs/2408.13222v1 )

ライセンス: Link先を確認
Lukas Gonon, Arnulf Jentzen, Benno Kuckuck, Siyu Liang, Adrian Riekert, Philippe von Wurstemberger, (参考訳) 数値アルゴリズムによる偏微分方程式(PDE)の解の近似は応用数学における中心的なトピックである。 長年にわたり、この目的のための様々な方法が開発され、広く研究されてきた。 近年、多くの注目を集めている手法の1つに機械学習ベースの手法があり、確率勾配降下型最適化法を用いて人工知能ニューラルネットワーク(ANN)のトレーニングを行うのが一般的である。 ANNを用いたPDEの近似法は1990年代に初めて提案されたが、深層学習の台頭により、過去10年間に広く普及しただけである。 本稿では,これらの手法の紹介と,それらに基づく数学的理論について述べる。 本稿では,物理インフォームドニューラルネットワーク(PINN)や深部BSDEなどの手法について議論し,いくつかの演算子学習手法について考察する。

The approximation of solutions of partial differential equations (PDEs) with numerical algorithms is a central topic in applied mathematics. For many decades, various types of methods for this purpose have been developed and extensively studied. One class of methods which has received a lot of attention in recent years are machine learning-based methods, which typically involve the training of artificial neural networks (ANNs) by means of stochastic gradient descent type optimization methods. While approximation methods for PDEs using ANNs have first been proposed in the 1990s they have only gained wide popularity in the last decade with the rise of deep learning. This article aims to provide an introduction to some of these methods and the mathematical theory on which they are based. We discuss methods such as physics-informed neural networks (PINNs) and deep BSDE methods and consider several operator learning approaches.
翻訳日:2024-08-26 14:20:44 公開日:2024-08-23
# D&M:キーモーメント検出とSFXマッチングによるサウンドエフェクトによるEコマースビデオの強化

D&M: Enriching E-commerce Videos with Sound Effects by Key Moment Detection and SFX Matching ( http://arxiv.org/abs/2408.13226v1 )

ライセンス: Link先を確認
Jingyu Liu, Minquan Wang, Ye Ma, Bo Wang, Aozhu Chen, Quan Chen, Peng Jiang, Xirong Li, (参考訳) 特定の商品を展示するビデオは、Eコマースにとってますます重要になっている。 特定の商品の最初の出現、特徴の提示、購入リンクの存在など、重要な瞬間が自然に存在する。 これらのキーモーメントに適切なサウンドエフェクト(SFX)を加えること、あるいはSFX(VDSFX)を使ったビデオデコレーションは、ユーザエンゲージメントエクスペリエンスの向上に不可欠である。 ビデオにSFXを追加することに関するこれまでの研究は、SFXマッチングを全体的レベルで実行し、特定の瞬間にSFXを追加する能力が欠如している。 一方、ビデオハイライト検出やビデオモーメント検索に関する以前の研究では、モーメントローカライゼーションのみを考慮しており、モーメントマッチングは未対応である。 対照的に,本論文ではキーモーメント検出とSFXの同時マッチングを実現する統一手法であるD&Mを提案する。 さらに、新しいVDSFXタスクでは、Eコマースプラットフォームから大規模なデータセットSFX-Momentを構築します。 公正な比較のために、我々は、多くの現在のビデオモーメント検出方法を新しいタスクに拡張することで、競争力のあるベースラインを構築する。 SFX-Momentの大規模実験により,提案手法がベースラインよりも優れた性能を示した。 コードとデータはリリースされます。

Videos showcasing specific products are increasingly important for E-commerce. Key moments naturally exist as the first appearance of a specific product, presentation of its distinctive features, the presence of a buying link, etc. Adding proper sound effects (SFX) to these key moments, or video decoration with SFX (VDSFX), is crucial for enhancing the user engaging experience. Previous studies about adding SFX to videos perform video to SFX matching at a holistic level, lacking the ability of adding SFX to a specific moment. Meanwhile, previous studies on video highlight detection or video moment retrieval consider only moment localization, leaving moment to SFX matching untouched. By contrast, we propose in this paper D&M, a unified method that accomplishes key moment detection and moment to SFX matching simultaneously. Moreover, for the new VDSFX task we build a large-scale dataset SFX-Moment from an E-commerce platform. For a fair comparison, we build competitive baselines by extending a number of current video moment detection methods to the new task. Extensive experiments on SFX-Moment show the superior performance of the proposed method over the baselines. Code and data will be released.
翻訳日:2024-08-26 14:20:44 公開日:2024-08-23
# モーダル・プロンプト構成による最適マルチタスク・プロンプトチューニングによるFew-Shotトランスファー学習の強化

Enhancing Few-Shot Transfer Learning with Optimized Multi-Task Prompt Tuning through Modular Prompt Composition ( http://arxiv.org/abs/2408.13227v1 )

ライセンス: Link先を確認
Ahmad Pouramini, Hesham Faili, (参考訳) 近年、マルチタスク・プロンプト・チューニングは、その固有のモジュラリティと、多種多様なタスクにおけるパラメータ効率の伝達学習を向上する可能性にかなりの注意を払っている。 本稿では,マルチタスク環境において,対応するプロンプト間の知識伝達を容易にすることで,複数のタスクのパフォーマンスを解析・改善することを目的とする。 提案手法は,各タスクのプロンプトを,共有プロンプト(ソースプロンプト)とタスク固有のプロンプト(プライベートプロンプト)の組み合わせに分解する。 訓練中、ソースプロンプトは微調整され、プライベートプロンプトと統合され、各タスクのターゲットプロンプトを駆動する。 提案手法では,ソースプロンプトとプライベートプロンプトの両方の役割を解析し,ターゲットプロンプトを構成するためにソースプロンプトを組み合わせる複数の手法を提案・比較する。 タスクパフォーマンスへのコントリビューションを調査し、これらの洞察に基づいてフレキシブルで調整可能な構成を提供し、パフォーマンスを最適化する。 実験結果から,従来の即興的なチューニングや関連する作業と比較して,精度と堅牢性の向上が明らかとなった。 特に,本研究の結果は, GLUEベンチマークにおける各種タスクにおいて, 様々なタスクにおいて優れた性能を示し, フィールドにおける他のメソッドよりも著しく優れていた。 この達成はトレーニングデータの量を大幅に削減することで達成され、我々の手法は数ショット設定で有望なものとなる。

In recent years, multi-task prompt tuning has garnered considerable attention for its inherent modularity and potential to enhance parameter-efficient transfer learning across diverse tasks. This paper aims to analyze and improve the performance of multiple tasks by facilitating the transfer of knowledge between their corresponding prompts in a multi-task setting. Our proposed approach decomposes the prompt for each target task into a combination of shared prompts (source prompts) and a task-specific prompt (private prompt). During training, the source prompts undergo fine-tuning and are integrated with the private prompt to drive the target prompt for each task. We present and compare multiple methods for combining source prompts to construct the target prompt, analyzing the roles of both source and private prompts within each method. We investigate their contributions to task performance and offer flexible, adjustable configurations based on these insights to optimize performance. Our empirical findings clearly showcase improvements in accuracy and robustness compared to the conventional practice of prompt tuning and related works. Notably, our results substantially outperform other methods in the field in few-shot settings, demonstrating superior performance in various tasks across GLUE benchmark, among other tasks. This achievement is attained with a significantly reduced amount of training data, making our method a promising one for few-shot settings.
翻訳日:2024-08-26 14:20:44 公開日:2024-08-23
# Amortized Bayesian Multilevel Models

Amortized Bayesian Multilevel Models ( http://arxiv.org/abs/2408.13230v1 )

ライセンス: Link先を確認
Daniel Habermann, Marvin Schmitt, Lars Kühmichel, Andreas Bulling, Stefan T. Radev, Paul-Christian Bürkner, (参考訳) マルチレベルモデル(MLM)はベイズワークフローの中心的なビルディングブロックである。 それらは階層的なレベルのデータの共同で解釈可能なモデリングを可能にし、不確実性を完全に確率論的に定量化する。 それらの利点はよく認識されているが、MLMは重要な計算上の課題を生じさせ、しばしばその推定と評価は合理的な時間制約の中で難解である。 シミュレーションに基づく推論の最近の進歩は、深層生成ネットワークを用いた複雑な確率モデルに対処するための有望な解決策を提供する。 しかし,ベイジアンMLMを推定する深層学習手法の有用性と信頼性は,特に金標準試料との比較では明らかにされていない。 この目的のために、我々は、マルチレベルモデルの確率的因数分解を利用して、効率的なニューラルネットワークトレーニングと、未知のデータセットに対するその後のほぼインスタントな後部推論を容易にするニューラルネットワークアーキテクチャのファミリーを探索する。 実世界のケーススタディにおいて本手法を試行し,金本位法としてStanとの比較を行った。 最後に,この手法をオープンソースで実装し,アモータイズされたベイズ推論の初期段階におけるさらなる研究を刺激する。

Multilevel models (MLMs) are a central building block of the Bayesian workflow. They enable joint, interpretable modeling of data across hierarchical levels and provide a fully probabilistic quantification of uncertainty. Despite their well-recognized advantages, MLMs pose significant computational challenges, often rendering their estimation and evaluation intractable within reasonable time constraints. Recent advances in simulation-based inference offer promising solutions for addressing complex probabilistic models using deep generative networks. However, the utility and reliability of deep learning methods for estimating Bayesian MLMs remains largely unexplored, especially when compared with gold-standard samplers. To this end, we explore a family of neural network architectures that leverage the probabilistic factorization of multilevel models to facilitate efficient neural network training and subsequent near-instant posterior inference on unseen data sets. We test our method on several real-world case studies and provide comprehensive comparisons to Stan as a gold-standard method where possible. Finally, we provide an open-source implementation of our methods to stimulate further research in the nascent field of amortized Bayesian inference.
翻訳日:2024-08-26 14:20:44 公開日:2024-08-23
# スケーラブルで高精度な球面ラジアルフーリエ関数の設計について

On the design of scalable, high-precision spherical-radial Fourier features ( http://arxiv.org/abs/2408.13231v1 )

ライセンス: Link先を確認
Ayoub Belhadji, Qianyu Julie Zhu, Youssef Marzouk, (参考訳) Fourier機能を使用した近似は、大規模な問題にカーネルメソッドをスケーリングするための一般的なテクニックであり、機械学習や統計学に無数の応用がある。 この方法はシフト不変カーネルの積分表現を二次規則を用いた和に置き換える。 後者の設計は、高精度近似に必要な特徴の数を減らすことを目的としている。 具体的には、平方指数核に対して、$\mathbb{R}^d$ 上のガウス測度を近似する二次規則を設計しなければならない。 この研究のこれまでの努力は、高次元において困難に直面してきた。 我々は、その等方性を利用して高次元のガウス測度を正確に近似する新しい二次規則の族を導入する。 これらの規則は、放射状二次規則と球状二次規則のテンソル積として構成される。 従来の研究と比較して,本手法は近似誤差を徹底的に解析し,ラジアル成分と球面成分の両方に対する自然な選択を示唆している。 このフーリエ特徴の族は近似境界を改良することを示した。

Approximation using Fourier features is a popular technique for scaling kernel methods to large-scale problems, with myriad applications in machine learning and statistics. This method replaces the integral representation of a shift-invariant kernel with a sum using a quadrature rule. The design of the latter is meant to reduce the number of features required for high-precision approximation. Specifically, for the squared exponential kernel, one must design a quadrature rule that approximates the Gaussian measure on $\mathbb{R}^d$. Previous efforts in this line of research have faced difficulties in higher dimensions. We introduce a new family of quadrature rules that accurately approximate the Gaussian measure in higher dimensions by exploiting its isotropy. These rules are constructed as a tensor product of a radial quadrature rule and a spherical quadrature rule. Compared to previous work, our approach leverages a thorough analysis of the approximation error, which suggests natural choices for both the radial and spherical components. We demonstrate that this family of Fourier features yields improved approximation bounds.
翻訳日:2024-08-26 14:20:44 公開日:2024-08-23
# ほぼ線形時間で近似できる多層変圧器

Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time ( http://arxiv.org/abs/2408.13233v1 )

ライセンス: Link先を確認
Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song, Yufa Zhou, (参考訳) 一般的なトランスアーキテクチャの自己注意機構における2次計算の複雑さは、特に効率とメモリ要求の観点から、トレーニングと推論に重大な課題をもたらす。 これらの課題に対処するために,多層変圧器モデルにおける勾配計算のための高速計算手法を提案する。 提案手法は, 入力シーケンス長が$n$である場合, ほぼ線形時間$n^{1+o(1)}$で, 多層トランスモデル全体の勾配の計算を可能にする。 このブレークスルーにより、従来の2次時間複雑性に関連する計算ボトルネックが大幅に減少する。 我々の理論は任意の損失関数を保ち、モデル全体にわたって有界近似誤差を維持する。 さらに,多層トランスモデルには,残差接続,カジュアルマスク,マルチヘッドアテンションなど,実用的なサブモジュールが多数含まれている。 大規模言語モデルにおける勾配計算の効率化により、我々の研究は、我々の理論的結果に基づいて、より効果的な長文言語モデルの訓練と展開を促進することを期待する。

The quadratic computational complexity in the self-attention mechanism of popular transformer architectures poses significant challenges for training and inference, particularly in terms of efficiency and memory requirements. Towards addressing these challenges, this paper introduces a novel fast computation method for gradient calculation in multi-layer transformer models. Our approach enables the computation of gradients for the entire multi-layer transformer model in almost linear time $n^{1+o(1)}$, where $n$ is the input sequence length. This breakthrough significantly reduces the computational bottleneck associated with the traditional quadratic time complexity. Our theory holds for any loss function and maintains a bounded approximation error across the entire model. Furthermore, our analysis can hold when the multi-layer transformer model contains many practical sub-modules, such as residual connection, casual mask, and multi-head attention. By improving the efficiency of gradient computation in large language models, we hope that our work will facilitate the more effective training and deployment of long-context language models based on our theoretical results.
翻訳日:2024-08-26 14:20:44 公開日:2024-08-23
# Double Descent:不特定パラメータの線形モデル推定とオーバーフィッティングモデル

Double Descent: Understanding Linear Model Estimation of Nonidentifiable Parameters and a Model for Overfitting ( http://arxiv.org/abs/2408.13235v1 )

ライセンス: Link先を確認
Ronald Christensen, (参考訳) p>n 問題に対するペナル化(正規化)最小二乗推定やスペクトル縮小推定など、最小二乗推定における通常の最小二乗推定と変分と、新しい観測結果の予測に関する問題を考える。 第1節の導入後、第2節は、p > n に対してよく使われる多くの推定器を調べる。 第3節は p > n で予測を導入する。 第4節では過度な適合の議論を促すために記法の変更を導入し、第5節では二重降下の現象を説明している。 最終的なコメントで締めくくります。

We consider ordinary least squares estimation and variations on least squares estimation such as penalized (regularized) least squares and spectral shrinkage estimates for problems with p > n and associated problems with prediction of new observations. After the introduction of Section 1, Section 2 examines a number of commonly used estimators for p > n. Section 3 introduces prediction with p > n. Section 4 introduces notational changes to facilitate discussion of overfitting and Section 5 illustrates the phenomenon of double descent. We conclude with some final comments.
翻訳日:2024-08-26 14:11:01 公開日:2024-08-23
# JacNet: 構造化ジャコビアンによる関数の学習

JacNet: Learning Functions with Structured Jacobians ( http://arxiv.org/abs/2408.13237v1 )

ライセンス: Link先を確認
Jonathan Lorraine, Safwan Hossain, (参考訳) ニューラルネットワークは、入力ドメインからターゲットドメインへの近似マッピングを学ぶために訓練される。 真のマッピングに関する事前知識を組み込むことは、有用な近似を学ぶために重要である。 現在のアーキテクチャでは、入出力マッピングの導関数に構造を強制することは困難である。 本稿では,ニューラルネットワークを用いて入力出力関数のジャコビアンを直接学習し,導関数の制御を容易にすることを提案する。 我々は、可逆性を許容するために導関数を構造化することに注力し、また、$k$-Lipschitzのような他の有用な先例を強制できることを実証する。 このアプローチを用いることで、逆関数の可逆性を保証し、逆関数を容易に計算できる単純な関数への近似を学習することができる。 また, 1-Lipschitz関数についても同様の結果を示す。

Neural networks are trained to learn an approximate mapping from an input domain to a target domain. Incorporating prior knowledge about true mappings is critical to learning a useful approximation. With current architectures, it is challenging to enforce structure on the derivatives of the input-output mapping. We propose to use a neural network to directly learn the Jacobian of the input-output function, which allows easy control of the derivative. We focus on structuring the derivative to allow invertibility and also demonstrate that other useful priors, such as $k$-Lipschitz, can be enforced. Using this approach, we can learn approximations to simple functions that are guaranteed to be invertible and easily compute the inverse. We also show similar results for 1-Lipschitz functions.
翻訳日:2024-08-26 14:11:01 公開日:2024-08-23
# CustomCrafter: モーションとコンセプト構成能力を保存するカスタムビデオ生成

CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities ( http://arxiv.org/abs/2408.13239v1 )

ライセンス: Link先を確認
Tao Wu, Yong Zhang, Xintao Wang, Xianpan Zhou, Guangcong Zheng, Zhongang Qi, Ying Shan, Xi Li, (参考訳) カスタマイズされたビデオ生成は、テキストプロンプトと被験者の参照画像によってガイドされる高品質なビデオを生成することを目的としている。 しかし,静的画像にのみ訓練されているため,映像拡散モデル(VDM)の能力は微調整処理によって阻害され,概念が組み合わさって動きが生成される。 これらの能力を回復するために、いくつかの方法は、モデルを微調整したりガイドしたりするプロンプトに似た追加のビデオを使用する。 これは、ユーザーにとって非常に不都合な、異なるモーションを生成する際に、ガイドビデオの頻繁な変更や、モデルの再チューニングさえ必要である。 本稿では,モデルの動き生成と概念的組み合わせを,追加のビデオや微調整を伴わずに保存する新しいフレームワークであるCustomCrafterを提案する。 概念的組み合わせの能力を維持するため,VDMのパラメータを少数更新するプラグイン・アンド・プレイ・モジュールを設計し,モデルが外観の詳細を把握し,新しい被験者に対する概念組合せの能力を向上する。 動作生成においては,VDMは早期に映像の動きを回復する傾向にあり,後期では被写体の詳細の回復に焦点をあてる傾向が見られた。 そこで我々は,動的重み付きビデオサンプリング戦略を提案する。 対象学習モジュールのプラグビリティを用いて,VDMの動作を発生させる能力を保ちながら,初期段階の動作生成に対するこのモジュールの影響を低減した。 復調の後期では、このモジュールを復元して、特定対象の外観詳細を修復し、被験者の外観の忠実さを確実にする。 実験結果から,本手法は従来手法に比べて大幅に改善されていることがわかった。

Customized video generation aims to generate high-quality videos guided by text prompts and subject's reference images. However, since it is only trained on static images, the fine-tuning process of subject learning disrupts abilities of video diffusion models (VDMs) to combine concepts and generate motions. To restore these abilities, some methods use additional video similar to the prompt to fine-tune or guide the model. This requires frequent changes of guiding videos and even re-tuning of the model when generating different motions, which is very inconvenient for users. In this paper, we propose CustomCrafter, a novel framework that preserves the model's motion generation and conceptual combination abilities without additional video and fine-tuning to recovery. For preserving conceptual combination ability, we design a plug-and-play module to update few parameters in VDMs, enhancing the model's ability to capture the appearance details and the ability of concept combinations for new subjects. For motion generation, we observed that VDMs tend to restore the motion of video in the early stage of denoising, while focusing on the recovery of subject details in the later stage. Therefore, we propose Dynamic Weighted Video Sampling Strategy. Using the pluggability of our subject learning modules, we reduce the impact of this module on motion generation in the early stage of denoising, preserving the ability to generate motion of VDMs. In the later stage of denoising, we restore this module to repair the appearance details of the specified subject, thereby ensuring the fidelity of the subject's appearance. Experimental results show that our method has a significant improvement compared to previous methods.
翻訳日:2024-08-26 14:11:01 公開日:2024-08-23
# プラグマティクスにとってどの韻律的特徴が最も重要か?

Which Prosodic Features Matter Most for Pragmatics? ( http://arxiv.org/abs/2408.13240v1 )

ライセンス: Link先を確認
Nigel G. Ward, Divette Marco, Olac Fuentes, (参考訳) 韻律機能伝達において,どの韻律的特徴が重要であるかを検討する。 本研究では,発話ペア間の現実的類似性の人間の知覚を予測し,異なるタイプの韻律的特徴の有用性を評価する。 例えば、時間的特徴はピッチ的特徴よりも重要であり、発話初期特徴は発話最終特徴よりも重要である。 さらに, ピッチ特徴を用いたモデリングは, 重要な実用的機能を扱うのに失敗することが多く, 一般的に無視される音響的特徴や韻律的特徴は, ナサリティやビブラートなど, 実用的に重要であることを示唆している。 これらの知見は, 将来の韻律基礎研究の指針となり, 音声合成評価の改善法を示唆するものである。

We investigate which prosodic features matter most in conveying prosodic functions. We use the problem of predicting human perceptions of pragmatic similarity among utterance pairs to evaluate the utility of prosodic features of different types. We find, for example, that duration-related features are more important than pitch-related features, and that utterance-initial features are more important than utterance-final features. Further, failure analysis indicates that modeling using pitch features only often fails to handle important pragmatic functions, and suggests that several generally-neglected acoustic and prosodic features are pragmatically significant, including nasality and vibrato. These findings can guide future basic research in prosody, and suggest how to improve speech synthesis evaluation, among other applications.
翻訳日:2024-08-26 14:11:01 公開日:2024-08-23
# 制約緩和による同変モデルトレーニングの改善

Improving Equivariant Model Training via Constraint Relaxation ( http://arxiv.org/abs/2408.13242v1 )

ライセンス: Link先を確認
Stefanos Pertigkiozoglou, Evangelos Chatzipantazis, Shubhendu Trivedi, Kostas Daniilidis, (参考訳) 等価ニューラルネットワークは、基礎となるデータ対称性が知られているタスクでうまく一般化できるため、様々なアプリケーションで広く利用されている。 彼らの成功にもかかわらず、そのようなネットワークは最適化が困難であり、トレーニングを成功させるためには、注意深いハイパーパラメータチューニングが必要である。 本研究は,トレーニング中の硬度等分散制約を緩和することにより,そのようなモデルの最適化を改善するための新しい枠組みを提案する: 等変解に到達するまで,段階的に制約する非等分散項を導入することにより,ネットワーク中間層の等分散制約を緩和する。 追加緩和項の活性化の大きさを制御することにより、近似同変ネットワークを含むより大きな仮説空間を最適化し、訓練の終わりに同変解に収束させることができる。 本研究では,様々な最先端ネットワークアーキテクチャの実験結果を提供し,このトレーニングフレームワークが一般化性能を向上した同変モデルを実現する方法を示す。

Equivariant neural networks have been widely used in a variety of applications due to their ability to generalize well in tasks where the underlying data symmetries are known. Despite their successes, such networks can be difficult to optimize and require careful hyperparameter tuning to train successfully. In this work, we propose a novel framework for improving the optimization of such models by relaxing the hard equivariance constraint during training: We relax the equivariance constraint of the network's intermediate layers by introducing an additional non-equivariance term that we progressively constrain until we arrive at an equivariant solution. By controlling the magnitude of the activation of the additional relaxation term, we allow the model to optimize over a larger hypothesis space containing approximate equivariant networks and converge back to an equivariant solution at the end of training. We provide experimental results on different state-of-the-art network architectures, demonstrating how this training framework can result in equivariant models with improved generalization performance.
翻訳日:2024-08-26 14:11:01 公開日:2024-08-23
# MCTR:マルチカメラトラッキングトランス

MCTR: Multi Camera Tracking Transformer ( http://arxiv.org/abs/2408.13243v1 )

ライセンス: Link先を確認
Alexandru Niculescu-Mizil, Deep Patel, Iain Melvin, (参考訳) マルチカメラトラッキングは、様々な現実世界のアプリケーションにおいて重要な役割を果たす。 エンドツーエンドの手法はシングルカメラトラッキングに大きな関心を集めているが、マルチカメラトラッキングはヒューリスティックな手法に大きく依存している。 このギャップに対応するために,マルチカメラ・トラッキング・tRansformer (MCTR) を提案する。 MCTRは、Detector TRansformer (DETR)のようなエンドツーエンドの検出器を利用して、カメラビューごとに独立して検出および検出埋め込みを生成する。 このフレームワークは、追跡されたオブジェクトに関するグローバル情報を付加する一連のトラック埋め込みを維持し、ビュー固有の検出埋め込みからローカル情報を統合することで、各フレームでそれらを更新する。 トラック埋め込みは、一貫したオブジェクトトラックを生成するために、すべてのカメラビューとフレームにおける検出と確率的に関連付けられている。 ソフト確率的アソシエーションは、システム全体のエンドツーエンドのトレーニングを可能にする差別化可能な損失の設計を促進する。 我々のアプローチを検証するために、MMPTrackとAI City Challengeという2つの大規模マルチカメラマルチオブジェクト追跡データセットを最近導入した実験を行った。

Multi-camera tracking plays a pivotal role in various real-world applications. While end-to-end methods have gained significant interest in single-camera tracking, multi-camera tracking remains predominantly reliant on heuristic techniques. In response to this gap, this paper introduces Multi-Camera Tracking tRansformer (MCTR), a novel end-to-end approach tailored for multi-object detection and tracking across multiple cameras with overlapping fields of view. MCTR leverages end-to-end detectors like DEtector TRansformer (DETR) to produce detections and detection embeddings independently for each camera view. The framework maintains set of track embeddings that encaplusate global information about the tracked objects, and updates them at every frame by integrating the local information from the view-specific detection embeddings. The track embeddings are probabilistically associated with detections in every camera view and frame to generate consistent object tracks. The soft probabilistic association facilitates the design of differentiable losses that enable end-to-end training of the entire system. To validate our approach, we conduct experiments on MMPTrack and AI City Challenge, two recently introduced large-scale multi-camera multi-object tracking datasets.
翻訳日:2024-08-26 14:11:01 公開日:2024-08-23
# フラーレン封入環状オゾンによる次世代ナノサイズの推進剤の量子計算

Fullerene-encapsulated Cyclic Ozone for the Next Generation of Nano-sized Propellants via Quantum Computation ( http://arxiv.org/abs/2408.13244v1 )

ライセンス: Link先を確認
Thomas W. Watts, Matthew Otten, Jason T. Necaise, Nam Nguyen, Benjamin Link, Kristen S. Williams, Yuval R. Sanders, Samuel J. Elman, Maria Kieferova, Michael J. Bremner, Kaitlyn J. Morrell, Justin E. Elenewski, Samuel D. Johnson, Luke Mathieson, Kevin M. Obenland, Rashmi Sundareswara, Adam Holmes, (参考訳) 周期的なオゾン添加剤は、ロケット燃料の特定の衝動を著しく増加させる可能性があり、それによって効率が向上し、宇宙打ち上げのコストが削減され、ロケット当たりのペイロードは最大で3分の1まで増加する。 この異性体を捕獲する試みは成功しなかったが、循環オゾンは閉じ込められた地層内で安定化される可能性がある。 しかし、必要となる合成法は、古典的手法の能力を超える理論駆動の入力を設計し、必要としているのは困難である。 量子計算はこれらの計算を可能にするが、多くの実用用途のハードウェア要件はまだ不明である。 本研究では,フラーレンカプセル化による環状オゾンの分離に量子法が有効であることを示す。 我々の議論は、量子位相推定(QPE)に基づく基底状態エネルギーを決定するために、論理的および物理的オーバーヘッド推定の両方を提供する、形式的な複雑性解析に留まらない。 これらのデータとともに、フォールトトレラント量子計算を用いた現実的で計算補助的な分子設計の取り組みについて、妥当なスケールを概説している。

Cyclic ozone additives have the potential to significantly increase the specific impulse of rocket fuel, which would lead to greater efficiency and reduced costs for space launches, allowing up to one third more payload per rocket. Although practical attempts to capture this isomer have not been successful, cyclic ozone might be stabilized within confined geometries. However, the required synthetic methods are challenging to design and need theory-driven inputs that exceed the capabilities of classical methods. Quantum computation could enable these calculations, but the hardware requirements for many practical applications are still unclear. We provide a comprehensive analysis of how quantum methods could aid efforts to isolate cyclic ozone using fullerene encapsulation. Our discussion goes beyond formal complexity analysis, offering both logical and physical overhead estimates for determining ground state energies based on quantum phase estimation (QPE). Together, these data outline a plausible scale for realistic, computationally-assisted molecular design efforts using fault-tolerant quantum computation.
翻訳日:2024-08-26 14:11:01 公開日:2024-08-23
# LLMアプリからのデータ公開:OpenAIのGPTの詳細な調査

Data Exposure from LLM Apps: An In-depth Investigation of OpenAI's GPTs ( http://arxiv.org/abs/2408.13247v1 )

ライセンス: Link先を確認
Evin Jaff, Yuhao Wu, Ning Zhang, Umar Iqbal, (参考訳) LLMアプリのエコシステムは急速に成熟し、幅広いユースケースをサポートしています。 LLMアプリはサードパーティによって開発されており、LCMプラットフォームがポリシーを厳格に強制していないという逸話的な証拠があることを考えると、任意のサードパーティと共有されるユーザデータは、重大なプライバシーリスクをもたらす。 本稿では,LLMアプリのデータプラクティスに透明性を持たせることを目的とする。 ケーススタディとして、OpenAIのGPTアプリエコシステムを調査します。 我々は,GPTの自然言語に基づくソースコードとその動作(外部サービス)を静的に解析し,データ収集の実践を特徴付けるLLMベースのフレームワークを開発した。 その結果,Actionsは,パスワードなどのOpenAIが禁止している機密情報を含む,ユーザに関する広範囲なデータを収集していることがわかった。 広告や分析に関するいくつかのアクションは、複数のGPTに埋め込まれており、GPT全体でユーザアクティビティを追跡することができる。 さらに、アクションの共起は、個々のアクションに暴露されるよりも、最大9.5倍多くのデータを公開する。 最後に、プライバシーポリシーの開示を伴うアクションによるデータ収集の一貫性を自動的にチェックするLLMベースのプライバシポリシ分析フレームワークを開発する。 我々の測定によると、収集されたデータ型の大半の開示はプライバシーポリシーで省略されており、5.8%のアクションが明らかにデータ収集のプラクティスを開示している。

LLM app ecosystems are quickly maturing and supporting a wide range of use cases, which requires them to collect excessive user data. Given that the LLM apps are developed by third-parties and that anecdotal evidence suggests LLM platforms currently do not strictly enforce their policies, user data shared with arbitrary third-parties poses a significant privacy risk. In this paper we aim to bring transparency in data practices of LLM apps. As a case study, we study OpenAI's GPT app ecosystem. We develop an LLM-based framework to conduct the static analysis of natural language-based source code of GPTs and their Actions (external services) to characterize their data collection practices. Our findings indicate that Actions collect expansive data about users, including sensitive information prohibited by OpenAI, such as passwords. We find that some Actions, including related to advertising and analytics, are embedded in multiple GPTs, which allow them to track user activities across GPTs. Additionally, co-occurrence of Actions exposes as much as 9.5x more data to them, than it is exposed to individual Actions. Lastly, we develop an LLM-based privacy policy analysis framework to automatically check the consistency of data collection by Actions with disclosures in their privacy policies. Our measurements indicate that the disclosures for most of the collected data types are omitted in privacy policies, with only 5.8% of Actions clearly disclosing their data collection practices.
翻訳日:2024-08-26 14:11:01 公開日:2024-08-23
# 電子マイクログラフ解析の基礎モデル:企業導入のための命令調整型小型言語・ビジョンアシスタント

Foundational Model for Electron Micrograph Analysis: Instruction-Tuning Small-Scale Language-and-Vision Assistant for Enterprise Adoption ( http://arxiv.org/abs/2408.13248v1 )

ライセンス: Link先を確認
Sakhinana Sagar Srinivas, Chidaksh Ravuru, Geethan Sannidhi, Venkataramana Runkana, (参考訳) 半導体イメージングと分析は深層学習において重要であり、半導体製造における正確な制御と最適化の能力を制限する。 本稿では,半導体電子顕微鏡画像(MAEMI)を視覚言語による命令チューニングにより解析する,小型マルチモーダルフレームワークを提案する。 我々は、顕微鏡画像解析において、大規模なマルチモーダルモデルを用いて、カスタマイズされた命令追従データセットを生成する。 知識蒸留により,より大規模なモデルからより小さなモデルへの知識伝達を行い,視覚的質問応答(VQA)タスクにおいて,より小さなモデルの精度を向上させる。 このアプローチは、顕微鏡画像解析タスクのための高価な、人間の専門家による注釈付きデータセットを不要にする。 企業は、自社の知的データに基づいてMAEMIをさらに微調整し、低コストの消費者向けハードウェア上でのプライバシとパフォーマンスを向上させることができる。 実験の結果,MAEMIは従来の手法より優れ,データ分散シフトに適応し,高スループットスクリーニングをサポートすることがわかった。

Semiconductor imaging and analysis are critical yet understudied in deep learning, limiting our ability for precise control and optimization in semiconductor manufacturing. We introduce a small-scale multimodal framework for analyzing semiconductor electron microscopy images (MAEMI) through vision-language instruction tuning. We generate a customized instruction-following dataset using large multimodal models on microscopic image analysis. We perform knowledge transfer from larger to smaller models through knowledge distillation, resulting in improved accuracy of smaller models on visual question answering (VQA) tasks. This approach eliminates the need for expensive, human expert-annotated datasets for microscopic image analysis tasks. Enterprises can further finetune MAEMI on their intellectual data, enhancing privacy and performance on low-cost consumer hardware. Our experiments show that MAEMI outperforms traditional methods, adapts to data distribution shifts, and supports high-throughput screening.
翻訳日:2024-08-26 14:11:01 公開日:2024-08-23
# マスクによるオクルージョン・アタックを用いたCOVID-19後における顔のアンチ・スプーフィングアルゴリズムの再評価

Re-evaluation of Face Anti-spoofing Algorithm in Post COVID-19 Era Using Mask Based Occlusion Attack ( http://arxiv.org/abs/2408.13251v1 )

ライセンス: Link先を確認
Vaibhav Sundharam, Abhijit Sarkar, A. Lynn Abbott, (参考訳) 顔の偽造防止アルゴリズムは、プレゼンテーション攻撃に対する顔認識システムの堅牢な展開において重要な役割を果たす。 従来、こうしたシステムでは、個人を正しく認証するために完全な顔画像が必要であるが、現在のCOVID-19パンデミックによるマスクの広範な要求は、これらの生体認証システムに新たな課題をもたらしている。 そこで,本稿では,マスクとメガネを用いた合成顔隠蔽下での提示攻撃検出(PAD)アルゴリズムの性能について検討する。 我々は5種類のマスクを用いて顔の下部をカバーし(低被覆、中被覆、高被覆、ラウンドカバー)、3Dキューを開発した。 また、顔の上部を覆う様々な種類の眼鏡も使用しています。 ベンチマークデータセットを用いて,これらの閉塞攻撃下での4つのPADアルゴリズムの性能を系統的に検証した。 我々は、畳み込みニューラルネットワーク(CNN)を通じて、テクスチャ、画質、フレーム差/動き、抽象的特徴に焦点を当てた4つの異なるベースラインPADアルゴリズムを特に検討した。 さらに、CNNとローカルバイナリパターンテクスチャを利用する新しいハイブリッドモデルも導入しました。 実験の結果,オクルージョンの追加はPADアルゴリズムの性能を著しく低下させることがわかった。 以上の結果から, フェース・アンチ・スプーフィング・アルゴリズムとオクルージョン・アルゴリズムの脆弱性が示唆された。

Face anti-spoofing algorithms play a pivotal role in the robust deployment of face recognition systems against presentation attacks. Conventionally, full facial images are required by such systems to correctly authenticate individuals, but the widespread requirement of masks due to the current COVID-19 pandemic has introduced new challenges for these biometric authentication systems. Hence, in this work, we investigate the performance of presentation attack detection (PAD) algorithms under synthetic facial occlusions using masks and glasses. We have used five variants of masks to cover the lower part of the face with varying coverage areas (low-coverage, medium-coverage, high-coverage, round coverage), and 3D cues. We have also used different variants of glasses that cover the upper part of the face. We systematically tested the performance of four PAD algorithms under these occlusion attacks using a benchmark dataset. We have specifically looked at four different baseline PAD algorithms that focus on, texture, image quality, frame difference/motion, and abstract features through a convolutional neural network (CNN). Additionally we have introduced a new hybrid model that uses CNN and local binary pattern textures. Our experiment shows that adding the occlusions significantly degrades the performance of all of the PAD algorithms. Our results show the vulnerability of face anti-spoofing algorithms with occlusions, which could be in the usage of such algorithms in the post-pandemic era.
翻訳日:2024-08-26 14:11:01 公開日:2024-08-23
# LayerPano3D:超没入型シーン生成のための層状3Dパノラマ

LayerPano3D: Layered 3D Panorama for Hyper-Immersive Scene Generation ( http://arxiv.org/abs/2408.13252v1 )

ライセンス: Link先を確認
Shuai Yang, Jing Tan, Mengchen Zhang, Tong Wu, Yixuan Li, Gordon Wetzstein, Ziwei Liu, Dahua Lin, (参考訳) 3D没入型シーン生成はコンピュータビジョンとグラフィックスにおいて難しいが重要な課題である。 希望する仮想3Dシーン 1)一方向視の整合性を示し、 2)複雑なシーン階層における自由な探索を可能にする。 既存の方法は、塗装による連続的なシーン展開に依存するか、大規模なFOVシーン環境を表現するためにパノラマ表現を使用するかのいずれかである。 しかし、生成されたシーンは拡張中にセマンティックドリフトに悩まされ、シーン階層間のオクルージョンを処理できない。 これらの課題に対処するために、単一テキストプロンプトからパノラマ3Dシーンを生成するための新しいフレームワークであるLayerPano3Dを紹介した。 我々の重要な洞察は、参照2Dパノラマを異なる深さの複数の層に分解し、各層が参照ビューから拡散前の参照ビューから見えない空間を明らかにすることである。 LayerPano3Dは複数の専用デザインで構成されています。 1) 高品質で一貫したパノラマ生成のためのテキスト誘導型アンカービュー合成パイプラインを提案する。 2) 複雑なシーン階層を管理し,それを3次元ガウシアンに持ち上げ,360度全方向の細かなシーンを非拘束視程で切り離すための基礎的な表現として,Layered 3D Panoramaを開拓した。 大規模な実験により,本フレームワークはフルビューの一貫性と没入型探索経験の両方において,最先端の3次元パノラマシーンを生成することが示された。 LayerPano3Dは、多くのアプリケーションで3Dパノラマシーンを作成することを約束しています。

3D immersive scene generation is a challenging yet critical task in computer vision and graphics. A desired virtual 3D scene should 1) exhibit omnidirectional view consistency, and 2) allow for free exploration in complex scene hierarchies. Existing methods either rely on successive scene expansion via inpainting or employ panorama representation to represent large FOV scene environments. However, the generated scene suffers from semantic drift during expansion and is unable to handle occlusion among scene hierarchies. To tackle these challenges, we introduce LayerPano3D, a novel framework for full-view, explorable panoramic 3D scene generation from a single text prompt. Our key insight is to decompose a reference 2D panorama into multiple layers at different depth levels, where each layer reveals the unseen space from the reference views via diffusion prior. LayerPano3D comprises multiple dedicated designs: 1) we introduce a novel text-guided anchor view synthesis pipeline for high-quality, consistent panorama generation. 2) We pioneer the Layered 3D Panorama as underlying representation to manage complex scene hierarchies and lift it into 3D Gaussians to splat detailed 360-degree omnidirectional scenes with unconstrained viewing paths. Extensive experiments demonstrate that our framework generates state-of-the-art 3D panoramic scene in both full view consistency and immersive exploratory experience. We believe that LayerPano3D holds promise for advancing 3D panoramic scene creation with numerous applications.
翻訳日:2024-08-26 14:11:01 公開日:2024-08-23
# 疎関連情報からのドメイン固有長文分類

Domain-specific long text classification from sparse relevant information ( http://arxiv.org/abs/2408.13253v1 )

ライセンス: Link先を確認
Célia D'Cruz, Jean-Marc Bereder, Frédéric Precioso, Michel Riveill, (参考訳) 大規模言語モデルは、間違いなく自然言語処理の分野に革命をもたらした。 しかし、より大きな言語モデルで働いている統計的メカニズムは、弱い信号であるとき、非常に疎いとき、関連する情報を利用するのに苦労する。 これは例えば、長いドメイン固有の文書の分類において、関連性が単一の関連語または技術的な用語のごくわずかな関連語に依存する場合である。 医療分野では、ある報告が患者の状態に関する重要な情報を含んでいるかどうかを判断することが不可欠である。 この臨界情報は、しばしば1つまたは少数の特定の孤立項に基づいている。 本稿では,候補文を検索し,それらを含む対象語(s)の文脈的埋め込みに表現するために,潜在的対象語の短いリストを利用する階層モデルを提案する。 用語(s)埋め込みのプーリングは、分類される文書表現を必要とする。 我々は、英語の公開医療文書ベンチマークとフランスの民間医療データセットを用いて、我々のモデルを評価した。 より狭い階層モデルは、ドメイン固有のコンテキストで関連する長いドキュメントを取得するために、より大きな言語モデルよりも優れていることを示す。

Large Language Models have undoubtedly revolutionized the Natural Language Processing field, the current trend being to promote one-model-for-all tasks (sentiment analysis, translation, etc.). However, the statistical mechanisms at work in the larger language models struggle to exploit the relevant information when it is very sparse, when it is a weak signal. This is the case, for example, for the classification of long domain-specific documents, when the relevance relies on a single relevant word or on very few relevant words from technical jargon. In the medical domain, it is essential to determine whether a given report contains critical information about a patient's condition. This critical information is often based on one or few specific isolated terms. In this paper, we propose a hierarchical model which exploits a short list of potential target terms to retrieve candidate sentences and represent them into the contextualized embedding of the target term(s) they contain. A pooling of the term(s) embedding(s) entails the document representation to be classified. We evaluate our model on one public medical document benchmark in English and on one private French medical dataset. We show that our narrower hierarchical model is better than larger language models for retrieving relevant long documents in a domain-specific context.
翻訳日:2024-08-26 14:11:01 公開日:2024-08-23
# 動的現象型自閉症スペクトラム障害に対する複数物理指標のアンサンブルモデリング

Ensemble Modeling of Multiple Physical Indicators to Dynamically Phenotype Autism Spectrum Disorder ( http://arxiv.org/abs/2408.13255v1 )

ライセンス: Link先を確認
Marie Huynh, Aaron Kline, Saimourya Surabhi, Kaitlyn Dunlap, Onur Cezmi Mutlu, Mohammadmahdi Honarmand, Parnian Azizian, Peter Washington, Dennis P. Wall, (参考訳) 社会的コミュニケーションの課題を特徴とする神経発達障害である自閉症の早期発見は、時間的介入に不可欠である。 最近の進歩は、モバイルアプリケーションGuessWhatで撮影した自然主義的なホームビデオを活用している。 GuessWhatは、子供とその保護者との対話的なゲームを通じて、382人の子供の3000以上の構造化ビデオを集め、どちらも自閉症スペクトラム障害(ASD)と診断された。 このコレクションは、コンピュータビジョンモデルをトレーニングするための堅牢なデータセットを提供し、感情表現、アイコンタクト、頭の動きのバリエーションを含む、ASDに関連する表現型マーカーを検出する。 我々は,このデータセットから高品質な動画をキュレートするプロトコルを開発し,総合的なトレーニングセットを構築した。 このセットを用いて,視線,頭部位置,顔のランドマークを入力としてLSTMモデルを訓練し,それぞれ86%,67%,78%のAUCを達成した。 診断精度を向上させるため,後期融合法を用いてアンサンブルモデルを作成し,全AUCを90%改善した。 このアプローチは、性別や年齢の異なるグループに対して、より公平な結果をもたらす。 我々の手法は、主観的評価への依存を減らし、早期同定をよりアクセシブルかつ公平なものにすることで、早期発見において重要な一歩となる。

Early detection of autism, a neurodevelopmental disorder marked by social communication challenges, is crucial for timely intervention. Recent advancements have utilized naturalistic home videos captured via the mobile application GuessWhat. Through interactive games played between children and their guardians, GuessWhat has amassed over 3,000 structured videos from 382 children, both diagnosed with and without Autism Spectrum Disorder (ASD). This collection provides a robust dataset for training computer vision models to detect ASD-related phenotypic markers, including variations in emotional expression, eye contact, and head movements. We have developed a protocol to curate high-quality videos from this dataset, forming a comprehensive training set. Utilizing this set, we trained individual LSTM-based models using eye gaze, head positions, and facial landmarks as input features, achieving test AUCs of 86%, 67%, and 78%, respectively. To boost diagnostic accuracy, we applied late fusion techniques to create ensemble models, improving the overall AUC to 90%. This approach also yielded more equitable results across different genders and age groups. Our methodology offers a significant step forward in the early detection of ASD by potentially reducing the reliance on subjective assessments and making early identification more accessibly and equitable.
翻訳日:2024-08-26 14:11:01 公開日:2024-08-23
# 拡散モデルがいかにして分解と構成を学ぶか

How Diffusion Models Learn to Factorize and Compose ( http://arxiv.org/abs/2408.13256v1 )

ライセンス: Link先を確認
Qiyao Liang, Ziming Liu, Mitchell Ostrow, Ila Fiete, (参考訳) 拡散モデルは、トレーニングセットに一緒に現れない可能性のある要素を組み合わせたフォトリアリスティック画像を生成することができ、構成的に一般化する能力を示す。 それでも、構成性の正確なメカニズムと、それがいかにトレーニングによって獲得されるかは、いまだ解明されていない。 認知神経科学的なアプローチに触発されて、拡散モデルが構成可能な特徴の意味的意味的・因果的表現を学習するかどうかを調べるために、高度に縮小された設定を考える。 様々な2次元ガウスデータを生成するために訓練された条件付き拡散確率モデル(DDPM)について広範囲に制御実験を行った。 その結果,データに基づく変動の連続的な特徴を符号化するために,モデルが分解されるが完全連続な多様体表現を学習することが判明した。 このような表現では、モデルは優れた特徴合成性を示すが、ある特徴の見えない値を補間する能力は限定的である。 さらに, 実験結果から, 拡散モデルが構成例が少なく, 構成性が得られることが示され, DDPMの訓練方法がより効率的であることが示唆された。 最後に、拡散モデルの多様体形成と物理学のパーコレーション理論を結びつけ、因子化表現学習の突然の開始についての洞察を提供する。 これにより, 拡散モデルがデータ中の構成構造をどのように捉えているか, より深く理解することができる。

Diffusion models are capable of generating photo-realistic images that combine elements which likely do not appear together in the training set, demonstrating the ability to compositionally generalize. Nonetheless, the precise mechanism of compositionality and how it is acquired through training remains elusive. Inspired by cognitive neuroscientific approaches, we consider a highly reduced setting to examine whether and when diffusion models learn semantically meaningful and factorized representations of composable features. We performed extensive controlled experiments on conditional Denoising Diffusion Probabilistic Models (DDPMs) trained to generate various forms of 2D Gaussian data. We found that the models learn factorized but not fully continuous manifold representations for encoding continuous features of variation underlying the data. With such representations, models demonstrate superior feature compositionality but limited ability to interpolate over unseen values of a given feature. Our experimental results further demonstrate that diffusion models can attain compositionality with few compositional examples, suggesting a more efficient way to train DDPMs. Finally, we connect manifold formation in diffusion models to percolation theory in physics, offering insight into the sudden onset of factorized representation learning. Our thorough toy experiments thus contribute a deeper understanding of how diffusion models capture compositional structure in data.
翻訳日:2024-08-26 14:11:01 公開日:2024-08-23
# MME-RealWorld:あなたのマルチモーダルLLMは、人間にとって難しい高解像度リアルワールドシナリオに挑戦できるか?

MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans? ( http://arxiv.org/abs/2408.13257v1 )

ライセンス: Link先を確認
Yi-Fan Zhang, Huanyu Zhang, Haochen Tian, Chaoyou Fu, Shuangqing Zhang, Junfei Wu, Feng Li, Kun Wang, Qingsong Wen, Zhang Zhang, Liang Wang, Rong Jin, Tieniu Tan, (参考訳) MLLM(Multimodal Large Language Models)の総合評価は,最近,研究コミュニティで広く注目を集めている。 しかし、既存のベンチマークにはいくつかの共通の障壁があり、これはモデルが現実世界で直面する重要な課題を測るのを困難にしている。 1)小さなデータスケールは、大きなパフォーマンスのばらつきにつながる。 2) モデルベースのアノテーションに依存すると、データ品質が制限される。 3) 課題難易度は, 特に画像解像度の制限により低下した。 これらの課題に対処するために,MME-RealWorldを紹介する。 具体的には、公開データセットとインターネットから300ドル以上の画像を収集し、アノテーションのために13,366ドルの高品質な画像をフィルタリングします。 これには、プロの25ドルのアノテータと7ドルのMLLMの専門家の努力が含まれており、現実世界のシナリオで43ドルのサブタスクをカバーする質問応答ペアとして29,429ドルを支払っている。 われわれが知る限り、MME-RealWorldは、これまでで最大の手動アノテーション付きベンチマークであり、最も高解像度で、現実世界のアプリケーションにフォーカスしている。 さらに, GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnetなどの著名なMLLMを28ドルで評価した。 その結果、最も先進的なモデルでさえベンチマークに苦戦していることがわかった。 高解像度画像を認識し、複雑な現実世界のシナリオを理解するという課題は、解決すべき緊急の問題のままである。 データと評価コードはhttps://mme-realworld.github.io/で公開されている。

Comprehensive evaluation of Multimodal Large Language Models (MLLMs) has recently garnered widespread attention in the research community. However, we observe that existing benchmarks present several common barriers that make it difficult to measure the significant challenges that models face in the real world, including: 1) small data scale leads to a large performance variance; 2) reliance on model-based annotations results in restricted data quality; 3) insufficient task difficulty, especially caused by the limited image resolution. To tackle these issues, we introduce MME-RealWorld. Specifically, we collect more than $300$K images from public datasets and the Internet, filtering $13,366$ high-quality images for annotation. This involves the efforts of professional $25$ annotators and $7$ experts in MLLMs, contributing to $29,429$ question-answer pairs that cover $43$ subtasks across $5$ real-world scenarios, extremely challenging even for humans. As far as we know, MME-RealWorld is the largest manually annotated benchmark to date, featuring the highest resolution and a targeted focus on real-world applications. We further conduct a thorough evaluation involving $28$ prominent MLLMs, such as GPT-4o, Gemini 1.5 Pro, and Claude 3.5 Sonnet. Our results show that even the most advanced models struggle with our benchmarks, where none of them reach $60\%$ accuracy. The challenges of perceiving high-resolution images and understanding complex real-world scenarios remain urgent issues to be addressed. The data and evaluation code are released at https://mme-realworld.github.io/ .
翻訳日:2024-08-26 14:11:01 公開日:2024-08-23
# エンティティクラスタとしてのトピック: 大規模言語モデルとグラフニューラルネットワークによるエンティティベースのトピック

Topics as Entity Clusters: Entity-based Topics from Large Language Models and Graph Neural Networks ( http://arxiv.org/abs/2301.02458v3 )

ライセンス: Link先を確認
Manuel V. Loureiro, Steven Derby, Tri Kurniawan Wijaya, (参考訳) トピックモデルは、テキストのコーパス内の潜伏構造を明らかにすることを目的としており、典型的には、文書のバグ・オブ・ワード表現に関する項周波数統計を用いている。 近年では、言語に依存しない言語に依存しない概念的実体が、単語レベルのトークンの代わりに使われてきた。 しかし、純粋にエンティティ駆動のニューラル・トピック・モデリングを考える場合、現在の文献は限られている。 例えば、システマティック構造を引き出すためにエンティティを使用する利点があるにもかかわらず、現在の技術がこれらの疎結合で情報密度の高い概念単位と互換性があるかどうかは不明である。 本研究では,エンティティに基づくニューラルトピックモデリングについて検討し,エンティティのバイモーダルベクトル表現を用いた新しいトピッククラスタリング手法を提案する。 具体的には、これらの概念単位の最も健全な側面を導出するために、大きな言語モデルと記号関係の知識ベースに基づいて訓練されたグラフニューラルネットワークからこれらの潜在表現を抽出する。 特に知識ベースでトレーニングされたグラフベースの埋め込みを使用する場合、コヒーレンシーメトリクスの分析により、我々のアプローチは最先端のモデルと比較してエンティティを扱うのに適していることを確認した。

Topic models aim to reveal latent structures within a corpus of text, typically through the use of term-frequency statistics over bag-of-words representations from documents. In recent years, conceptual entities -- interpretable, language-independent features linked to external knowledge resources -- have been used in place of word-level tokens, as words typically require extensive language processing with a minimal assurance of interpretability. However, current literature is limited when it comes to exploring purely entity-driven neural topic modeling. For instance, despite the advantages of using entities for eliciting thematic structure, it is unclear whether current techniques are compatible with these sparsely organised, information-dense conceptual units. In this work, we explore entity-based neural topic modeling and propose a novel topic clustering approach using bimodal vector representations of entities. Concretely, we extract these latent representations from large language models and graph neural networks trained on a knowledge base of symbolic relations, in order to derive the most salient aspects of these conceptual units. Analysis of coherency metrics confirms that our approach is better suited to working with entities in comparison to state-of-the-art models, particularly when using graph-based embeddings trained on a knowledge base.
翻訳日:2024-08-26 10:28:07 公開日:2024-08-23
# 大規模事前訓練モデルが急激な新進クラス発見において驚くほど強力である

Large-scale Pre-trained Models are Surprisingly Strong in Incremental Novel Class Discovery ( http://arxiv.org/abs/2303.15975v5 )

ライセンス: Link先を確認
Mingxuan Liu, Subhankar Roy, Zhun Zhong, Nicu Sebe, Elisa Ricci, (参考訳) 乱れのないデータセットと連続した方法で新しい概念を発見することは、生涯学習者の重要なデシラタムである。 文献では、そのような問題は、関連するラベル付き集合(eg, NCD)や、教師付き事前学習されたモデル(eg, class-iNCD)にのみアクセスすることで、新しいクラスを学習する、非常に制限された設定の下で部分的に解決されている。 本研究は,クラス-iNCDにおける現状問題に挑戦し,関連するラベル付き集合を必要とせず,クラス発見を継続的に,真に教師なしで行う学習パラダイムを提案する。 本稿では,よりリッチな事前学習モデル(PTM)の活用を提案する。 そこで本研究では,凍結したPTMバックボーンと学習可能な線形分類器からなる単純なベースラインを提案する。 我々は,多数のベンチマークで広範な実証評価を行い,高度な最先端手法と比較して,提案するベースラインの有効性を示す。 コードはオープンソースです。

Discovering novel concepts in unlabelled datasets and in a continuous manner is an important desideratum of lifelong learners. In the literature such problems have been partially addressed under very restricted settings, where novel classes are learned by jointly accessing a related labelled set (e.g., NCD) or by leveraging only a supervisedly pre-trained model (e.g., class-iNCD). In this work we challenge the status quo in class-iNCD and propose a learning paradigm where class discovery occurs continuously and truly unsupervisedly, without needing any related labelled set. In detail, we propose to exploit the richer priors from strong self-supervised pre-trained models (PTM). To this end, we propose simple baselines, composed of a frozen PTM backbone and a learnable linear classifier, that are not only simple to implement but also resilient under longer learning scenarios. We conduct extensive empirical evaluation on a multitude of benchmarks and show the effectiveness of our proposed baselines when compared with sophisticated state-of-the-art methods. The code is open source.
翻訳日:2024-08-26 10:28:07 公開日:2024-08-23
# SPICED:複数のトピックと複雑度を持つニュース類似度検出データセット

SPICED: News Similarity Detection Dataset with Multiple Topics and Complexity Levels ( http://arxiv.org/abs/2309.13080v3 )

ライセンス: Link先を確認
Elena Shushkevich, Long Mai, Manuel V. Loureiro, Steven Derby, Tri Kurniawan Wijaya, (参考訳) ニュースメディアの普及により、ユーザー体験を高めるため、ニュース記事の冗長な情報を検知できるインテリジェントシステムへの需要が高まっている。 しかし、ニュースの不均一な性質は、これらのシステムで突発的な発見をもたらす可能性がある。 ニュース類似性データセットをトピックに分割することで、これらのモデルのトレーニングを改善する。 しかし、これは現在欠落しているトピック固有のデータセットの存在を必要とする。 本稿では,犯罪と法,文化とエンターテイメント,災害と事故,経済とビジネス,政治と紛争,科学技術,スポーツの7つのトピックを含む,類似ニュースの新しいデータセットSPICEDを提案する。 さらに,ニュース類似度検出タスクに特化して設計された4種類の複雑さを提示する。 MinHash、BERT、SBERT、SimCSEモデルを使用して、生成されたデータセットをベンチマークしました。

The proliferation of news media outlets has increased the demand for intelligent systems capable of detecting redundant information in news articles in order to enhance user experience. However, the heterogeneous nature of news can lead to spurious findings in these systems: Simple heuristics such as whether a pair of news are both about politics can provide strong but deceptive downstream performance. Segmenting news similarity datasets into topics improves the training of these models by forcing them to learn how to distinguish salient characteristics under more narrow domains. However, this requires the existence of topic-specific datasets, which are currently lacking. In this article, we propose a novel dataset of similar news, SPICED, which includes seven topics: Crime & Law, Culture & Entertainment, Disasters & Accidents, Economy & Business, Politics & Conflicts, Science & Technology, and Sports. Futhermore, we present four different levels of complexity, specifically designed for news similarity detection task. We benchmarked the created datasets using MinHash, BERT, SBERT, and SimCSE models.
翻訳日:2024-08-26 10:28:07 公開日:2024-08-23
# ホログラフィックエントロピー円錐のファセットの2つの無限族

Two infinite families of facets of the holographic entropy cone ( http://arxiv.org/abs/2401.13029v4 )

ライセンス: Link先を確認
Bartlomiej Czech, Yu Liu, Bo Yu, (参考訳) 我々は、最近証明されたホログラフィックエントロピーの不等式の無限族が極端にきついこと、すなわち、ホログラフィックエントロピー円錐の面であることを検証する。 証明は技術的だが、ヒューリスティックな洞察を与えてくれる。 星グラフ上では、両方の不等式族は、サブシステムに作用する二面対称性に関して、情報の集中/拡散の程度を定量化する。 さらに、K-基底に見られるトーリック不等式は、四者と六者完全テンソルの間の興味深い相互作用を示す。

We verify that the recently proven infinite families of holographic entropy inequalities are maximally tight, i.e. they are facets of the holographic entropy cone. The proof is technical but it offers some heuristic insight. On star graphs, both families of inequalities quantify how concentrated / spread information is with respect to a dihedral symmetry acting on subsystems. In addition, toric inequalities viewed in the K-basis show an interesting interplay between four-party and six-party perfect tensors.
翻訳日:2024-08-26 10:23:46 公開日:2024-08-23
# SUBLLM: LLMのためのToken Sequence Subsamplingを用いた新しい効率的なアーキテクチャ

SUBLLM: A Novel Efficient Architecture with Token Sequence Subsampling for LLM ( http://arxiv.org/abs/2406.06571v5 )

ライセンス: Link先を確認
Quandong Wang, Yuxuan Yuan, Xiaoyu Yang, Ruike Zhang, Kang Zhao, Wei Liu, Jian Luan, Daniel Povey, Bin Wang, (参考訳) 大規模言語モデル(LLM)は様々な分野で大きな成功を収めてきたが、トレーニングと推論の効率性は依然として大きな課題である。 本稿では,Subsampling-Upsampling-Bypass Large Language Modelの略で,Subsampling, Upsampling, Bypassモジュールを組み込んでコアデコーダのみのフレームワークを拡張する革新的なアーキテクチャであるSUBLLMを提案する。 サブサンプリングモジュールはシーケンスを短縮し、アップサンプリングモジュールはシーケンスの長さを復元し、バイパスモジュールは収束を高める。 LLaMAと比較して、提案されたSUBLLMは、トレーニング速度と推論速度、メモリ使用量の両方で大幅に向上し、競合する数ショットのパフォーマンスを維持している。 トレーニング中、SUBLLMはスピードを26%向上し、GPU毎にメモリを10GB削減する。 推論では、スピードを最大37%向上し、1GPUあたりのメモリを1GB削減する。 トレーニングと推論のスピードは、コンテキストウィンドウが8192に拡張された場合、それぞれ34%と52%向上できる。 私たちのコードはhttps://github.com/XiaoMi/subllm.comから入手可能です。

While Large Language Models (LLMs) have achieved remarkable success in various fields, the efficiency of training and inference remains a major challenge. To address this issue, we propose SUBLLM, short for Subsampling-Upsampling-Bypass Large Language Model, an innovative architecture that extends the core decoder-only framework by incorporating subsampling, upsampling, and bypass modules. The subsampling modules are responsible for shortening the sequence, while the upsampling modules restore the sequence length, and the bypass modules enhance convergence. In comparison to LLaMA, the proposed SUBLLM exhibits significant enhancements in both training and inference speeds as well as memory usage, while maintaining competitive few-shot performance. During training, SUBLLM increases speeds by 26% and cuts memory by 10GB per GPU. In inference, it boosts speeds by up to 37% and reduces memory by 1GB per GPU. The training and inference speeds can be enhanced by 34% and 52% respectively when the context window is expanded to 8192. Our code is available at https://github.com/XiaoMi/subllm.
翻訳日:2024-08-26 10:23:46 公開日:2024-08-23
# 量子相転移のプローブとしての量子気象能力

Quantum metrological capability as a probe for quantum phase transition ( http://arxiv.org/abs/2408.09783v3 )

ライセンス: Link先を確認
Xiangbei Li, Yaoming Chu, Shaoliang Zhang, Jianming Cai, (参考訳) 量子相転移(QPT)の理解は、多体物理学の分野における重要な基盤であると考えられている。 したがって、QPTを効果的に識別し、理解するプロトコルを開発することは、現在の量子シミュレーション実験において重要な課題である。 そこで本研究では,QPTハミルトニアンを単体干渉計の入力として用い,その進化状態を利用するゼロ温度QPTを探索する動的クエンチ・インターフェロメトリの枠組みを構築した。 量子フィッシャー情報によって定量化された量子論的能力は、量子臨界点付近でユニークなピークを示し、システムをその基底状態に冷却することなくQPTを探索することができる。 本研究では, 干渉計発生器の量子揺らぎを抽出し, 干渉計位相のパラメータ推定の不確かさを抽出し, 位相図の境界を同定することにより, 探索を実現できることを示す。 本研究は,QPTと量子力学の重要な関連性を確立し,現在の量子シミュレータにおける非平衡多体物理学研究のツールボックスを充実させるものである。

The comprehension of quantum phase transitions (QPTs) is considered as a critical foothold in the field of many-body physics. Developing protocols to effectively identify and understand QPTs thus represents a key but challenging task for present quantum simulation experiments. Here, we establish a dynamical quench-interferometric framework to probe a zero-temperature QPT, which utilizes the evolved state by quenching the QPT Hamiltonian as input of a unitary interferometer. The metrological capability quantified by the quantum Fisher information captivatingly shows an unique peak in the vicinity of the quantum critical point, allowing us to probe the QPT without cooling the system to its ground state. We show that the probing can be implemented by extracting quantum fluctuations of the interferometric generator as well as parameter estimation uncertainty of the interferometric phase, and subsequently allows identifying the boundary of the phase diagram. Our results establish an important link between QPTs and quantum metrology, and enrich the toolbox of studying non-equilibrium many-body physics in current quantum simulators.
翻訳日:2024-08-26 10:23:46 公開日:2024-08-23
# SurgicaL-CD:連続拡散モデルを用いた画像翻訳による手術画像の生成

SurgicaL-CD: Generating Surgical Images via Unpaired Image Translation with Latent Consistency Diffusion Models ( http://arxiv.org/abs/2408.09822v2 )

ライセンス: Link先を確認
Danush Kumar Venkatesh, Dominik Rivoir, Micha Pfeiffer, Stefanie Speidel, (参考訳) コンピュータ補助手術システム(CAS)は、手術中の外科医を補助し、合併症を軽減し、患者のケアを強化するように設計されている。 これらのシステムのために機械学習モデルをトレーニングするには、大量の注釈付きデータセットが必要である。 従来の手法では, シミュレーションからリアルな手術画像を作成するために, 生成モデルを用いて画像翻訳を行う方法が検討されている。 しかし、これらのアプローチは高品質で多様な外科画像を作成するのに苦労している。 そこで本研究では, ペアデータのないサンプル画像のみを用いて, リアルな画像を生成するために, 整合拡散法である \emph{SurgicaL-CD} を提案する。 3つのデータセットに対する我々のアプローチを評価し、下流トレーニングデータセットとして品質と有用性の観点から生成された画像を評価する。 以上の結果から,本手法はGANや拡散に基づく手法よりも優れていることが示された。 私たちのコードはhttps://gitlab.com/nct_tso_public/gan2diffusionで利用可能です。

Computer-assisted surgery (CAS) systems are designed to assist surgeons during procedures, thereby reducing complications and enhancing patient care. Training machine learning models for these systems requires a large corpus of annotated datasets, which is challenging to obtain in the surgical domain due to patient privacy concerns and the significant labeling effort required from doctors. Previous methods have explored unpaired image translation using generative models to create realistic surgical images from simulations. However, these approaches have struggled to produce high-quality, diverse surgical images. In this work, we introduce \emph{SurgicaL-CD}, a consistency-distilled diffusion method to generate realistic surgical images with only a few sampling steps without paired data. We evaluate our approach on three datasets, assessing the generated images in terms of quality and utility as downstream training datasets. Our results demonstrate that our method outperforms GANs and diffusion-based approaches. Our code is available at https://gitlab.com/nct_tso_public/gan2diffusion.
翻訳日:2024-08-26 10:23:46 公開日:2024-08-23
# 非エルミート皮膚効果に基づく非伝統的および頑健な光-物質相互作用

Unconventional and robust light-matter interactions based on the non-Hermitian skin effect ( http://arxiv.org/abs/2408.09826v2 )

ライセンス: Link先を確認
Lei Du, Anton Frisk Kockum, (参考訳) 非エルミート皮膚効果を特徴とする格子モデルは、複素エネルギースペクトルに付随する非自明なトポロジーによって急速に関心が高まりつつある。 このような非エルミート格子は、内在的キラリティと非伝統的(非ブロッホ)バンド理論の恩恵を受けるエキゾチックな光-物質相互作用の工学的パラダイムである。 ここでは、量子エミッタと原型ハタノ・ネルソンモデルと、ボソニック・キタエフ連鎖と呼ばれる拡張格子モデルとの間の一連の非伝統的な光-物質相互作用について検討する。 我々は、様々な不完全性に対する力学の堅牢性に注目し、基礎となるメカニズムを解明する。 単一地点で格子と相互作用する小型エミッタと,複数の地点で結合する巨大エミッタの両方を考える。 後者は排他的増幅機構を示し, システムに余剰散逸が存在する場合でもデコヒーレンスフリーのダイナミクスを可能にする。 散逸からの保護は、非ハーモニティと自己干渉効果の協調から生じ、したがって小さな放出体には不足している。 これらの結果は、非ハーモニティ性や様々な干渉効果の相互作用に関する深い洞察を与えるだけでなく、工学的エキゾチックスピンハミルトニアンや量子ネットワークにも応用できる可能性がある。

Lattice models featuring the non-Hermitian skin effect have attracted rapidly growing interest due to the nontrivial topology associated with their complex energy spectra. Such non-Hermitian lattices are promising paradigms for engineering exotic light-matter interactions which benefit from the intrinsic chirality and unconventional (non-Bloch) band theory. Here we study a series of unconventional light-matter interactions between quantum emitters and the prototypical Hatano--Nelson model as well as an extended lattice model dubbed the bosonic Kitaev chain. We focus on the robustness of the dynamics to various imperfections and elucidate the underlying mechanisms. We consider both small emitters, which interact with the lattice at single sites, and giant emitters coupling at multiple sites. The latter exhibit an exclusive amplification mechanism, which we find enables decoherence-free dynamics even in the presence of extra dissipation in the system. The protection from dissipation arises from a cooperation of the non-Hermiticity and the self-interference effect, and is therefore lacking for small emitters. These results not only provides a deeper insight into the interplay of non-Hermiticity and various interference effects, but also have potential applications in engineering exotic spin Hamiltonians and quantum networks.
翻訳日:2024-08-26 10:23:46 公開日:2024-08-23
# 大規模言語モデルの性能法則

Performance Law of Large Language Models ( http://arxiv.org/abs/2408.09895v2 )

ライセンス: Link先を確認
Chuhan Wu, Ruiming Tang, (参考訳) 大規模言語モデル(LLM)は,近年,大規模言語モデル(LLM)が目覚ましい業績をあげている。 しかし、スケーリング法則は、モデルアーキテクチャ、データ分散、トークン化器、計算精度といった様々な要因の影響を受け、損失の質的な推定のみを与える。 したがって、損失ではなく、異なるトレーニング設定でLLMの実際の性能を推定することは、実用的開発において非常に有用である。 本稿では, LLMのMMLUスコアを直接予測する「性能法則」という経験方程式を提案する。 LLMアーキテクチャの重要なハイパーパラメータとトレーニングデータのサイズに基づいて,異なる組織で異なるサイズとアーキテクチャが開発されている様々なLLMのMMLU予測を精度良く行う。 性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。

Guided by the belief of the scaling law, large language models (LLMs) have achieved impressive performance in recent years. However, scaling law only gives a qualitative estimation of loss, which is influenced by various factors such as model architectures, data distributions, tokenizers, and computation precision. Thus, estimating the real performance of LLMs with different training settings rather than loss may be quite useful in practical development. In this article, we present an empirical equation named "Performance Law" to directly predict the MMLU score of an LLM, which is a widely used metric to indicate the general capability of LLMs in real-world conversations and applications. Based on only a few key hyperparameters of the LLM architecture and the size of training data, we obtain a quite accurate MMLU prediction of various LLMs with diverse sizes and architectures developed by different organizations in different years. Performance law can be used to guide the choice of LLM architecture and the effective allocation of computational resources without extensive experiments.
翻訳日:2024-08-26 10:23:46 公開日:2024-08-23
# 個人差分相関による特徴選択

Feature Selection from Differentially Private Correlations ( http://arxiv.org/abs/2408.10862v2 )

ライセンス: Link先を確認
Ryan Swope, Amol Khanna, Philip Doldo, Saptarshi Roy, Edward Raff, (参考訳) データサイエンティストは、しばしば高次元データセットで最も重要な特徴を特定しようとする。 これは$L_1$-regularized regressionによって実現できるが、非常に高次元のデータセットでは非効率になる可能性がある。 さらに、高次元回帰はデータセット内の個々のデータポイントに関する情報をリークすることができる。 本稿では,2段階選択法である差分プライバシによる特徴選択のための確立された基本手法を実証的に評価し,空間的に安定していないことを示す。 これにより、実際のデータセットではパフォーマンスが低下するので、プライベートな機能選択に対する別のアプローチを検討します。 相関に基づく順序統計を用いて、データセットから重要な特徴を選択し、それらを民営化し、結果が個々のデータポイントに関する情報を漏らさないようにする。 提案手法は,多くのデータセット上でのプライベートな特徴選択において,確立されたベースラインを著しく上回っていることがわかった。

Data scientists often seek to identify the most important features in high-dimensional datasets. This can be done through $L_1$-regularized regression, but this can become inefficient for very high-dimensional datasets. Additionally, high-dimensional regression can leak information about individual datapoints in a dataset. In this paper, we empirically evaluate the established baseline method for feature selection with differential privacy, the two-stage selection technique, and show that it is not stable under sparsity. This makes it perform poorly on real-world datasets, so we consider a different approach to private feature selection. We employ a correlations-based order statistic to choose important features from a dataset and privatize them to ensure that the results do not leak information about individual datapoints. We find that our method significantly outperforms the established baseline for private feature selection on many datasets.
翻訳日:2024-08-26 10:23:46 公開日:2024-08-23
# MagicDec: 投機的復号化による長期コンテキスト生成のためのレイテンシ・スループトレードオフを破る

MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding ( http://arxiv.org/abs/2408.11049v3 )

ライセンス: Link先を確認
Jian Chen, Vashisth Tiwari, Ranajoy Sadhukhan, Zhuoming Chen, Jinyuan Shi, Ian En-Hsu Yen, Beidi Chen, (参考訳) 大きな言語モデル(LLM)は、対話型チャットボット、ドキュメント分析、エージェントワークフローといった長文アプリケーションでは一般的になっていますが、低レイテンシと高スループットで長文リクエストを提供するのは難しいです。 投機的復号法(SD)は、性能を犠牲にすることなくレイテンシを低減する手法として広く用いられているが、従来の知恵は、その有効性は小さなバッチサイズに限定されていることを示唆している。 MagicDecでは、中間列から長列への高スループット推論でも驚くほどSDが高速化できることが示されている。 より興味深いことに、インテリジェントなドラフト戦略は、厳密な分析に基づいてバッチサイズを増やすことで、より良いスピードアップを達成することができます。 MagicDecはまず、バッチサイズとシーケンス長の増加に伴うボトルネックシフトを特定し、これらの洞察を使用して、高いスループット推論のために投機的デコーディングをより効果的にデプロイする。 次に、スパースKVキャッシュを備えたドラフトモデルを活用して、シーケンス長とバッチサイズの両方でスケールするKVボトルネックに対処する。 この発見は、スループットを向上し、精度を損なうことなくレイテンシを低減することができるため、長期コンテキストサービスにおける投機的復号化の幅広い適用性を示している。 LLaMA-2-7B-32Kは最大2倍、LLaMA-3.1-8Bは最大1.84倍、NVIDIA A100 GPUは32から256までのバッチサイズを提供する。 コードはhttps://github.com/Infini-AI-Lab/MagicDec/で公開されている。

Large Language Models (LLMs) have become more prevalent in long-context applications such as interactive chatbots, document analysis, and agent workflows, but it is challenging to serve long-context requests with low latency and high throughput. Speculative decoding (SD) is a widely used technique to reduce latency without sacrificing performance but the conventional wisdom suggests that its efficacy is limited to small batch sizes. In MagicDec, we show that surprisingly SD can achieve speedup even for a high throughput inference regime for moderate to long sequences. More interestingly, an intelligent drafting strategy can achieve better speedup with increasing batch size based on our rigorous analysis. MagicDec first identifies the bottleneck shifts with increasing batch size and sequence length, and uses these insights to deploy speculative decoding more effectively for high throughput inference. Then, it leverages draft models with sparse KV cache to address the KV bottleneck that scales with both sequence length and batch size. This finding underscores the broad applicability of speculative decoding in long-context serving, as it can enhance throughput and reduce latency without compromising accuracy. For moderate to long sequences, we demonstrate up to 2x speedup for LLaMA-2-7B-32K and 1.84x speedup for LLaMA-3.1-8B when serving batch sizes ranging from 32 to 256 on 8 NVIDIA A100 GPUs. The code is available at https://github.com/Infini-AI-Lab/MagicDec/.
翻訳日:2024-08-26 10:23:46 公開日:2024-08-23
# TWLV-I:ビデオファンデーションモデルにおけるホロスティック評価の分析と考察

TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models ( http://arxiv.org/abs/2408.11318v2 )

ライセンス: Link先を確認
Hyeongmin Lee, Jin-Young Kim, Kyungjune Baek, Jihwan Kim, Hyojun Go, Seongsu Ha, Seokjin Han, Jiho Jang, Raehyuk Jung, Daewoo Kim, GeunOh Kim, JongMok Kim, Jongseok Kim, Junwan Kim, Soonwoo Kwon, Jangwon Lee, Seungjoon Park, Minjoon Seo, Jay Suh, Jaehyuk Yi, Aiden Lee, (参考訳) 本研究では,映像基礎モデルの公平かつ堅牢な評価について論じる。 言語や画像基礎モデルとは異なり、多くのビデオ基礎モデルは、サンプリング率、フレーム数、事前学習ステップなど)異なるパラメータで評価され、公正で堅牢な比較が難しい。 そこで本稿では,映像理解における2つの中核的能力(外観と動作理解)を測定するための,慎重に設計された評価フレームワークを提案する。 以上の結果から, UMT や InternVideo2 のようなテキスト管理や V-JEPA のような自己管理といった既存のビデオ基盤モデルでは,少なくとも1つの機能に制限があることがわかった。 代替として、モーションベースビデオと外観ベースビデオの両方にロバストな視覚表現を構築する新しいビデオ基盤モデルであるTWLV-Iを導入する。 V-JEPA (ViT-L) よりも4.6%, UMT (ViT-L) より7.7%改善した。 大型モデルと比較しても,DFN(ViT-H)に比べて7.2%,V-JEPA(ViT-H)より2.7%,InternVideo2(ViT-g)より2.8%改善した。 本稿では,TWLV-Iによるビデオベンチマークから得られる埋め込みベクトルと,それらの埋め込みを直接利用できる評価ソースコードを提供する。 コードはhttps://github.com/twelvelabs-io/video-embeddings-evaluation-frameworkで公開されている。

In this work, we discuss evaluating video foundation models in a fair and robust manner. Unlike language or image foundation models, many video foundation models are evaluated with differing parameters (such as sampling rate, number of frames, pretraining steps, etc.), making fair and robust comparisons challenging. Therefore, we present a carefully designed evaluation framework for measuring two core capabilities of video comprehension: appearance and motion understanding. Our findings reveal that existing video foundation models, whether text-supervised like UMT or InternVideo2, or self-supervised like V-JEPA, exhibit limitations in at least one of these capabilities. As an alternative, we introduce TWLV-I, a new video foundation model that constructs robust visual representations for both motion- and appearance-based videos. Based on the average top-1 accuracy of linear probing on five action recognition benchmarks, pretrained only on publicly accessible datasets, our model shows a 4.6%p improvement compared to V-JEPA (ViT-L) and a 7.7%p improvement compared to UMT (ViT-L). Even when compared to much larger models, our model demonstrates a 7.2%p improvement compared to DFN (ViT-H), a 2.7%p improvement compared to V-JEPA (ViT-H) and a 2.8%p improvement compared to InternVideo2 (ViT-g). We provide embedding vectors obtained by TWLV-I from videos of several commonly used video benchmarks, along with evaluation source code that can directly utilize these embeddings. The code is available at https://github.com/twelvelabs-io/video-embeddings-evaluation-framework.
翻訳日:2024-08-26 10:23:46 公開日:2024-08-23
# エレガントなベルの不等式の設計

Designing elegant Bell inequalities ( http://arxiv.org/abs/2408.11391v2 )

ライセンス: Link先を確認
Kwangil Bae, Junghee Ryu, Ilkwon Sohn, Wonhyuk Lee, (参考訳) エレガントベルの不等式(Elegant Bell inequality)は、その非常に悪用された性質で知られており、最大絡み合い、相互に偏りのない基底、対称的に完備な正の作用素値測度要素によって極大に違反している。 これまでに知られている唯一の財産である。 本稿では, 単純解析量子境界から高次元のベル不等式に類似した違反特徴を持つベル不等式を構築する方法を提案する。 そのような特徴を持つベルの不等式は、初めて3次元で導出される。 既存のベルの不等式よりも大きな違反を示すと同時に、測定回数も比較的少ない。

Elegant Bell inequality is well known for its much exploited property, being maximally violated by maximal entanglement, mutually unbiased bases, and symmetric informationally complete positive operator-valued measure elements. It is the only one with such property known so far. We present a method to construct Bell inequalities with violation feature analogous to original elegant Bell inequality in high dimension from a simple analytic quantum bound. A Bell inequality with such feature is derived in three dimension for the first time. It shows larger violation than existing Bell inequalities of similar classes while requiring arguably small number of measurements.
翻訳日:2024-08-26 10:23:46 公開日:2024-08-23
# シーケンスレコメンデーションのための双方向ゲート型マンバ

Bidirectional Gated Mamba for Sequential Recommendation ( http://arxiv.org/abs/2408.11451v2 )

ライセンス: Link先を確認
Ziwei Liu, Qidong Liu, Yejing Wang, Wanyu Wang, Pengyue Jia, Maolin Wang, Zitao Liu, Yi Chang, Xiangyu Zhao, (参考訳) 様々な領域において、複雑なユーザの嗜好を識別する優れた能力のために、SRS(Sequential Recommender Systems)が不可欠になっている。 典型的には、SRSはトランスフォーマーベースのアーキテクチャを使用して、後続のアイテムをシーケンス内で予測する。 しかしながら、これらのモデルに固有の二次計算の複雑さは、しばしば非効率につながり、リアルタイムの推薦の達成を妨げる。 最近の進歩であるMambaは、時系列予測において例外的な性能を示し、効率と精度の両方を大幅に向上させた。 しかし、Mambaを直接SRSに統合することはいくつかの課題をもたらす。 その本質的に一方向的な性質は、ユーザとイテムのインタラクションの全コンテキストをキャプチャするモデルの能力を制限する可能性がある一方で、状態推定の不安定性は、インタラクションシーケンス内の短期パターンを検出する能力を損なう可能性がある。 これらの問題を克服するために、シークエンシャルレコメンデーションのためのSIGMA(Selective Gated Mamba)という新しいフレームワークを導入する。 このフレームワークは、PF-Mamba (Partially Flipped Mamba) を利用して、コンテキストモデリングを改善するために特別に設計された双方向アーキテクチャを構築する。 さらに、指向性の重みを最適化し、PF-Mambaにおけるシーケンシャル情報の処理を強化するために、入力に敏感なDense Selective Gate(DS Gate)が使用される。 また,ショートシーケンスモデリングのために,短期依存関係を効率的に捉える機能抽出GRU (FE-GRU) を開発した。 実証的な結果は、SIGMAが5つの実世界のデータセットで現在のモデルより優れていることを示している。 我々の実装コードは再現性を容易にするためにhttps://github.com/ziwliu-cityu/SIMGAで利用可能です。

In various domains, Sequential Recommender Systems (SRS) have become essential due to their superior capability to discern intricate user preferences. Typically, SRS utilize transformer-based architectures to forecast the subsequent item within a sequence. Nevertheless, the quadratic computational complexity inherent in these models often leads to inefficiencies, hindering the achievement of real-time recommendations. Mamba, a recent advancement, has exhibited exceptional performance in time series prediction, significantly enhancing both efficiency and accuracy. However, integrating Mamba directly into SRS poses several challenges. Its inherently unidirectional nature may constrain the model's capacity to capture the full context of user-item interactions, while its instability in state estimation can compromise its ability to detect short-term patterns within interaction sequences. To overcome these issues, we introduce a new framework named Selective Gated Mamba (SIGMA) for Sequential Recommendation. This framework leverages a Partially Flipped Mamba (PF-Mamba) to construct a bidirectional architecture specifically tailored to improve contextual modeling. Additionally, an input-sensitive Dense Selective Gate (DS Gate) is employed to optimize directional weights and enhance the processing of sequential information in PF-Mamba. For short sequence modeling, we have also developed a Feature Extract GRU (FE-GRU) to efficiently capture short-term dependencies. Empirical results indicate that SIGMA outperforms current models on five real-world datasets. Our implementation code is available at https://github.com/ziwliu-cityu/SIMGA to ease reproducibility.
翻訳日:2024-08-26 10:23:46 公開日:2024-08-23
# フィードバック制御下における密閉状態からの局所抽出可能エネルギーの上界

Upper Bound on Locally Extractable Energy from Entangled Pure State under Feedback Control ( http://arxiv.org/abs/2408.11522v2 )

ライセンス: Link先を確認
Kanji Itoh, Yusuke Masaki, Hiroaki Matsueda, (参考訳) 局所ハミルトニアンの下でのサブシステムからのフィードバック制御による抽出可能エネルギー上の上界を導出する。 上界を与える不等式は、我々の有効熱力学における情報熱力学の第2法則に対応する。 さらに、初期状態と局所ハミルトニアンによってのみ決定されるより一般的な境界を導出する。 この境界は、抽出可能エネルギーと初期状態の絡み合い構造との間に明確な関係を与える。 また、上界の厳密性について検討し、その境界が簡単な例で達成可能であることを示す。

We introduce an effective thermodynamics for multipartite entangled pure states and derive an upper bound on extractable energy with feedback control from a subsystem under a local Hamiltonian. The inequality that gives the upper bound corresponds to the second law of information thermodynamics in our effective thermodynamics. In addition, we derive a more general bound that is determined only by an initial state and the local Hamiltonian. This bound gives an explicit relationship between the extractable energy and the entanglement structure of the initial state. We also investigate the tightness of the upper bounds and show that the bounds can be achieved in a simple example.
翻訳日:2024-08-26 10:23:46 公開日:2024-08-23
# AnyDesign: マスクフリー拡散によるVersatile Area FashionEditing

AnyDesign: Versatile Area Fashion Editing via Mask-Free Diffusion ( http://arxiv.org/abs/2408.11553v2 )

ライセンス: Link先を確認
Yunfang Niu, Lingxiang Wu, Dong Yi, Jie Peng, Ning Jiang, Haiying Wu, Jinqiao Wang, (参考訳) ファッション画像編集は、与えられた指示に基づいて人物の外観を変更することを目的としている。 既存の方法はセグメンタやキーポイント抽出器のような補助的なツールを必要とし、柔軟性と統一されたフレームワークを欠いている。 さらに、これらの手法は、多くのデータセットがクリーンな背景の人々に焦点を当てており、トップ、パンツ、ドレスなどの一般的な衣服のみを含むため、扱える服の種類に制限されている。 これらの制限は、現実世界のシナリオにおける適用性を制限します。 本稿では、まず、人間生成のための既存のデータセットを拡張し、より広い範囲のアパレルとより複雑な背景を含むようにする。 この拡張データセットでは、トップ、ズボン、ドレス、スカート、ヘッドウェア、スカーフ、靴、靴下、バッグなどのさまざまなアイテムを身に着けている。 さらに,多目的領域におけるマスフリー編集を可能にする拡散法であるAnyDesignを提案する。 ユーザは、テキストまたは画像フォーマットで、対応するプロンプトとともに、人間のイメージを入力できる。 提案手法は,Fashion-Guidance Attention (FGA)モジュールを備えたFashion DiTを取り入れ,明示的なアパレルタイプとCLIP符号化アパレル機能を融合させる。 質的,定量的な両実験により,本手法は高品質なファッション編集を実現し,現代テキスト誘導ファッション編集方法より優れることを示した。

Fashion image editing aims to modify a person's appearance based on a given instruction. Existing methods require auxiliary tools like segmenters and keypoint extractors, lacking a flexible and unified framework. Moreover, these methods are limited in the variety of clothing types they can handle, as most datasets focus on people in clean backgrounds and only include generic garments such as tops, pants, and dresses. These limitations restrict their applicability in real-world scenarios. In this paper, we first extend an existing dataset for human generation to include a wider range of apparel and more complex backgrounds. This extended dataset features people wearing diverse items such as tops, pants, dresses, skirts, headwear, scarves, shoes, socks, and bags. Additionally, we propose AnyDesign, a diffusion-based method that enables mask-free editing on versatile areas. Users can simply input a human image along with a corresponding prompt in either text or image format. Our approach incorporates Fashion DiT, equipped with a Fashion-Guidance Attention (FGA) module designed to fuse explicit apparel types and CLIP-encoded apparel features. Both Qualitative and quantitative experiments demonstrate that our method delivers high-quality fashion editing and outperforms contemporary text-guided fashion editing methods.
翻訳日:2024-08-26 10:23:46 公開日:2024-08-23
# 新友:注釈生成のための効率的なLCMシステム

Xinyu: An Efficient LLM-based System for Commentary Generation ( http://arxiv.org/abs/2408.11609v2 )

ライセンス: Link先を確認
Yiquan Wu, Bo Tang, Chenyang Xi, Yu Yu, Pengyu Wang, Yifei Liu, Kun Kuang, Haiying Deng, Zhiyu Li, Feiyu Xiong, Jie Hu, Peng Cheng, Zhonghao Wang, Yi Wang, Yi Luo, Mingchuan Yang, (参考訳) 解説は、様々な議論と証拠を提示することで、読者にイベントの深い理解を提供する。 しかし、熟練したコメンテーターにとっても、コメンテータを作成するのに時間がかかります。 大規模言語モデル(LLM)は、自然言語生成のプロセスを単純化しているが、コメント作成における直接的な適用は、ユニークなタスク要求のため、依然として課題に直面している。 これらの要件は、次の2つのレベルに分類される。 1) 十分に構造化され論理的に整合した物語を作成することを含む基本的な要件。 2) 質の議論を発生させ、証拠を提出する先進的な要件。 本稿では,中国語の注釈作成において,コメンテーターを支援するための効率的なLLMベースのシステムであるXinyuを紹介する。 基本要件を満たすため、我々は生成プロセスを逐次ステップに分解し、ターゲット戦略を提案し、各ステップごとに微調整(SFT)を監督する。 高度な要件に対処するために、議論のための議論ランキングモデルを提案し、最新のイベントや古典書を含む包括的なエビデンスデータベースを構築し、その結果、検索拡張生成(RAG)技術によるエビデンスのサブスタンスを強化する。 2段階の要件に応じて、より公平に生成されたコメントを評価するために、コメント生成における5つの異なる視点を考慮した総合的な評価指標を導入する。 本システムの有効性を実験により検証した。 また、実際のシナリオではコメンテーターの効率が大幅に向上し、コメント作成に要する平均時間は4時間から20分に短縮された。 重要なのは、こうした効率の向上がコメントの質を損なうことはないことだ。

Commentary provides readers with a deep understanding of events by presenting diverse arguments and evidence. However, creating commentary is a time-consuming task, even for skilled commentators. Large language models (LLMs) have simplified the process of natural language generation, but their direct application in commentary creation still faces challenges due to unique task requirements. These requirements can be categorized into two levels: 1) fundamental requirements, which include creating well-structured and logically consistent narratives, and 2) advanced requirements, which involve generating quality arguments and providing convincing evidence. In this paper, we introduce Xinyu, an efficient LLM-based system designed to assist commentators in generating Chinese commentaries. To meet the fundamental requirements, we deconstruct the generation process into sequential steps, proposing targeted strategies and supervised fine-tuning (SFT) for each step. To address the advanced requirements, we present an argument ranking model for arguments and establish a comprehensive evidence database that includes up-to-date events and classic books, thereby strengthening the substantiation of the evidence with retrieval augmented generation (RAG) technology. To evaluate the generated commentaries more fairly, corresponding to the two-level requirements, we introduce a comprehensive evaluation metric that considers five distinct perspectives in commentary generation. Our experiments confirm the effectiveness of our proposed system. We also observe a significant increase in the efficiency of commentators in real-world scenarios, with the average time spent on creating a commentary dropping from 4 hours to 20 minutes. Importantly, such an increase in efficiency does not compromise the quality of the commentaries.
翻訳日:2024-08-26 10:14:02 公開日:2024-08-23
# DTN:マルチタスクレコメンデーションのためのディープマルチタスク特化機能インタラクションネットワーク

DTN: Deep Multiple Task-specific Feature Interactions Network for Multi-Task Recommendation ( http://arxiv.org/abs/2408.11611v2 )

ライセンス: Link先を確認
Yaowen Bi, Yuteng Lian, Jie Cui, Jun Liu, Peijian Wang, Guanghui Li, Xuejun Chen, Jinglin Zhao, Hao Wen, Jing Zhang, Zhaoqi Zhang, Wenzhuo Song, Yang Sun, Weiwei Zhang, Mingchen Cai, Guanxing Zhang, (参考訳) ニューラルベースマルチタスク学習(MTL)は多くのレコメンデーションアプリケーションにうまく適用されている。 しかし、これらのMTLモデル(例えば、MMoE, PLE)は、複雑な高次特徴を捉えるのに不可欠であり、現実世界のレコメンデータシステムのランキングモデルで広く使われている、最適化中の機能相互作用を考慮しなかった。 さらに,MTLにおける様々なタスクにまたがる特徴重要度分析を通じて,同じ特徴がMTLにおいて異なるタスクにまたがって著しく異なる重要性を持つという興味深い相違現象が観察された。 これらの課題に対処するために,新しいモデル構造設計を用いたDeep Multiple Task-specific Feature Interactions Network (DTN)を提案する。 DTNは,MTLネットワークにおける複数のタスク固有機能インタラクション手法とタスク依存ネットワークを導入し,タスク固有機能インタラクション表現を学習し,汎用的な設定による共同表現学習の効率を向上させる。 我々はDTNを63億以上のサンプルからなる実世界のEコマースレコメンデーションデータセットに適用し、DTNが最先端のMTLモデルを大幅に上回ったことを示した。 さらに,大規模EコマースレコメンデータシステムにおけるDTNのオンライン評価では,クリック数3.28%,注文数3.10%,GMV(Gross Merchandise Value)2.70%の増加が確認された。 最後に、公開ベンチマークデータセット上で行われた大規模なオフライン実験は、DTNがレコメンデーション以外の様々なシナリオに適用できることを示し、ランキングモデルの性能を高めている。

Neural-based multi-task learning (MTL) has been successfully applied to many recommendation applications. However, these MTL models (e.g., MMoE, PLE) did not consider feature interaction during the optimization, which is crucial for capturing complex high-order features and has been widely used in ranking models for real-world recommender systems. Moreover, through feature importance analysis across various tasks in MTL, we have observed an interesting divergence phenomenon that the same feature can have significantly different importance across different tasks in MTL. To address these issues, we propose Deep Multiple Task-specific Feature Interactions Network (DTN) with a novel model structure design. DTN introduces multiple diversified task-specific feature interaction methods and task-sensitive network in MTL networks, enabling the model to learn task-specific diversified feature interaction representations, which improves the efficiency of joint representation learning in a general setup. We applied DTN to our company's real-world E-commerce recommendation dataset, which consisted of over 6.3 billion samples, the results demonstrated that DTN significantly outperformed state-of-the-art MTL models. Moreover, during online evaluation of DTN in a large-scale E-commerce recommender system, we observed a 3.28% in clicks, a 3.10% increase in orders and a 2.70% increase in GMV (Gross Merchandise Value) compared to the state-of-the-art MTL models. Finally, extensive offline experiments conducted on public benchmark datasets demonstrate that DTN can be applied to various scenarios beyond recommendations, enhancing the performance of ranking models.
翻訳日:2024-08-26 10:14:02 公開日:2024-08-23
# 光ISAC:基本性能限界とトランシーバ設計

Optical ISAC: Fundamental Performance Limits and Transceiver Design ( http://arxiv.org/abs/2408.11792v3 )

ライセンス: Link先を確認
Alireza Ghazavi Khorasgani, Mahtab Mirmohseni, Ahmed Elzanaty, (参考訳) 本稿では,通信用シングルインプット・シングルアウトプットとセンサ用シングルインプット・マルチアウトプット(SISO-COMとSIMO-SEN)を備えた光ポイント・ツー・ポイント(P2P)システムにおける最適容量歪み(C-D)トレードオフを,統合センシング通信(ISAC)フレームワーク内で特徴付ける。 最適速度歪み(R-D)領域を考察し、いくつかの内部(IB)および外部(OB)境界を探索する。 本稿では,非共役前と非共役前との非線形計測・状態関係に対処するため,実践的,漸近的に最適最大距離推定器 (MAP) と目標距離推定器 (MLE) を導入する。 検知アンテナの数が増加するにつれて、これらの推定器はベイズクラム・ラオ境界(BCRB)に収束する。 また、達成可能なレートCRB(AR-CRB)が最適C-D領域のOBとして機能し、非バイアス推定器と漸近的に多数の受信アンテナの両方に有効であることを示す。 入力分布がC-D領域のパレート境界のトレードオフを決定することを明らかにするために, 反復的ブラフト・アリモトアルゴリズム (BAA) と, メモリ効率の高い閉形式 (CF) アプローチ (CF) の2つのアルゴリズムを提案する。 CFアプローチは、高光信号-雑音比(O-SNR)条件に対するCF最適分布を含む。 さらに、この光学ISACコンテキストにDRT(Deterministic-Random Tradeoff)を適用し、洗練する。

This paper characterizes the optimal capacity-distortion (C-D) tradeoff in an optical point-to-point (P2P) system with single-input single-output for communication and single-input multiple-output for sensing (SISO-COM and SIMO-SEN) within an integrated sensing and communication (ISAC) framework. We consider the optimal rate-distortion (R-D) region and explore several inner (IB) and outer (OB) bounds. We introduce practical, asymptotically optimal maximum a posteriori (MAP) and maximum likelihood estimators (MLE) for target distance, addressing nonlinear measurement-to-state relationships and non-conjugate priors. As the number of sensing antennas increases, these estimators converge to the Bayesian Cram\'er-Rao bound (BCRB). We also establish that the achievable rate-CRB (AR-CRB) serves as an OB for the optimal C-D region, valid for both unbiased estimators and asymptotically large numbers of receive antennas. To clarify that the input distribution determines the tradeoff across the Pareto boundary of the C-D region, we propose two algorithms: \textit{i}) an iterative Blahut-Arimoto algorithm (BAA)-type method, and \textit{ii}) a memory-efficient closed-form (CF) approach. The CF approach includes a CF optimal distribution for high optical signal-to-noise ratio (O-SNR) conditions. Additionally, we adapt and refine the Deterministic-Random Tradeoff (DRT) to this optical ISAC context.
翻訳日:2024-08-26 10:14:02 公開日:2024-08-23
# 古代の知恵、近代の道具:古代インド哲学のための検索可能なLLMを探る

Ancient Wisdom, Modern Tools: Exploring Retrieval-Augmented LLMs for Ancient Indian Philosophy ( http://arxiv.org/abs/2408.11903v2 )

ライセンス: Link先を確認
Priyanka Mandikal, (参考訳) LLMは情報検索と知識の普及の展望に革命をもたらした。 しかし、専門分野におけるそれらの応用は、特にロングテールの知識分布において、事実的不正確さや幻覚によって妨げられることが多い。 専門知識領域におけるLong-form Question answering(LFQA)に対する検索強化生成(RAG)モデルの可能性について検討する。 本稿では、古代インドの哲学であるAdvaita Vedantaの広範な公開談話から得られたデータセットであるVedantaNY-10Mを紹介する。 我々は、転写、検索、生成性能に重点を置いた標準のRAG LLMに対してRAGモデルを開発し、ベンチマークする。 計算言語学者とドメインエキスパートによる人間による評価は、RAGモデルは幻覚の少ない事実的かつ包括的な応答を生成する上で、標準モデルよりも著しく優れていることを示している。 さらに、ユニークな低周波項を強調するキーワードベースのハイブリッド検索器により、結果がさらに改善される。 本研究は,現代の大規模言語モデルと古代の知識システムとを効果的に統合するための知見を提供する。 データセットとコードによるプロジェクトページ: https://sites.google.com/view/vedantany-10m

LLMs have revolutionized the landscape of information retrieval and knowledge dissemination. However, their application in specialized areas is often hindered by factual inaccuracies and hallucinations, especially in long-tail knowledge distributions. We explore the potential of retrieval-augmented generation (RAG) models for long-form question answering (LFQA) in a specialized knowledge domain. We present VedantaNY-10M, a dataset curated from extensive public discourses on the ancient Indian philosophy of Advaita Vedanta. We develop and benchmark a RAG model against a standard, non-RAG LLM, focusing on transcription, retrieval, and generation performance. Human evaluations by computational linguists and domain experts show that the RAG model significantly outperforms the standard model in producing factual and comprehensive responses having fewer hallucinations. In addition, a keyword-based hybrid retriever that emphasizes unique low-frequency terms further improves results. Our study provides insights into effectively integrating modern large language models with ancient knowledge systems. Project page with dataset and code: https://sites.google.com/view/vedantany-10m
翻訳日:2024-08-26 10:14:02 公開日:2024-08-23
# SPARK:大規模ビジョンランゲージモデルのためのマルチビジョンセンサ知覚と推論ベンチマーク

SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models ( http://arxiv.org/abs/2408.12114v2 )

ライセンス: Link先を確認
Youngjoon Yu, Sangyun Chung, Byung-Kwan Lee, Yong Man Ro, (参考訳) 大規模ビジョンランゲージモデル (LVLM) はテキスト・アライン・ビジョン・インプットによって大幅に進歩している。 彼らは、テキストモダリティを視覚入力と整合させることにより、コンピュータビジョンタスクにおいて顕著な進歩を遂げた。 熱、深度、医療用X線画像など、RGB以外のマルチビジョンセンサーを組み込む試みもある。 しかし、現在のLVLMは、マルチビジョンセンサの物理的特性を考慮せずに、同じRGB領域にあるかのように、マルチビジョンセンサから撮影した画像を見ることができる。 データセットとそれに対応するコンテキスト知識から、基本的なマルチビジョンセンサー情報を適切に伝達することができない。 その結果、実際の物理的環境から得られる情報とテキストとの整合性は正しくは得られず、物理的環境を考慮した複雑なセンサ関連質問への回答が困難になる。 本稿では,画像とマルチビジョンセンサ間の基本的なマルチビジョンセンサ情報ギャップを低減するために,SPARKと呼ばれるマルチビジョンセンサ知覚と推論ベンチマークを確立することを目的とする。 6,248個の視覚言語検定サンプルを作成し,多視点感覚知覚と多視点感覚推論を,様々な種類のセンサ関連質問を対象とする物理センサ知識習熟度に基づいて検討した。 我々は,これらの試料を用いて,LVLMを10個評価した。 その結果、ほとんどのモデルでは、様々な範囲で多視点感覚理論の欠陥が見られた。 コードとデータはhttps://github.com/top-yun/SPARKで公開されている。

Large-scale Vision-Language Models (LVLMs) have significantly advanced with text-aligned vision inputs. They have made remarkable progress in computer vision tasks by aligning text modality with vision inputs. There are also endeavors to incorporate multi-vision sensors beyond RGB, including thermal, depth, and medical X-ray images. However, we observe that current LVLMs view images taken from multi-vision sensors as if they were in the same RGB domain without considering the physical characteristics of multi-vision sensors. They fail to convey the fundamental multi-vision sensor information from the dataset and the corresponding contextual knowledge properly. Consequently, alignment between the information from the actual physical environment and the text is not achieved correctly, making it difficult to answer complex sensor-related questions that consider the physical environment. In this paper, we aim to establish a multi-vision Sensor Perception And Reasoning benchmarK called SPARK that can reduce the fundamental multi-vision sensor information gap between images and multi-vision sensors. We generated 6,248 vision-language test samples to investigate multi-vision sensory perception and multi-vision sensory reasoning on physical sensor knowledge proficiency across different formats, covering different types of sensor-related questions. We utilized these samples to assess ten leading LVLMs. The results showed that most models displayed deficiencies in multi-vision sensory reasoning to varying extents. Codes and data are available at https://github.com/top-yun/SPARK
翻訳日:2024-08-26 10:14:02 公開日:2024-08-23
# 計算と化学における自己組織化 - AlChemyへの回帰

Self-Organization in Computation & Chemistry: Return to AlChemy ( http://arxiv.org/abs/2408.12137v2 )

ライセンス: Link先を確認
Cole Mathis, Devansh Patel, Westley Weimer, Stephanie Forrest, (参考訳) 生命のような複雑な適応システムは、単純な構成部品からどのように現われるのか? 1990年代、Walter Fontana と Leo Buss は、$\lambda$ calculus として知られる公式な計算モデルに基づく新しいモデリング手法を提案した。 このモデルでは、単純な規則が組み合わさって大きな可能性空間に埋め込まれ、複雑な、動的に安定な組織を生み出し、生化学反応ネットワークを思い起こさせることを示した。 ここでは、この古典的なモデルであるAlChemyを再考する。 元の結果を再現し、現在利用可能なより大きな計算資源を用いて、これらの結果の堅牢性について研究する。 我々の分析では、システムの予期せぬいくつかの特徴が明らかとなり、動的堅牢性と脆弱性が驚くほど混在していることが示されている。 具体的には、複雑で安定した組織は、以前予想されていたよりも頻繁に出現し、これらの組織は、自明な固定点への崩壊に対して堅牢であるが、これらの安定した組織は、より高次のエンティティに簡単に統合できない。 また、2つのランダムな表現生成器が生成したオブジェクトの初期分布を特徴付けるモデルで使用されるランダムな生成器の役割とその結果への影響について検討した。 最後に、型付き$\lambda$計算に基づくモデルの拡張が、任意の化学反応ネットワークにおける任意の状態間の遷移をシミュレートし、AlChemyと化学反応ネットワークとの具体的な接続を示す構成的証明を提供する。 本稿では,現代プログラミング言語における自己組織化へのAlChemyの応用の可能性と,生命の起源に対する定量的アプローチについて論じる。

How do complex adaptive systems, such as life, emerge from simple constituent parts? In the 1990s Walter Fontana and Leo Buss proposed a novel modeling approach to this question, based on a formal model of computation known as $\lambda$ calculus. The model demonstrated how simple rules, embedded in a combinatorially large space of possibilities, could yield complex, dynamically stable organizations, reminiscent of biochemical reaction networks. Here, we revisit this classic model, called AlChemy, which has been understudied over the past thirty years. We reproduce the original results and study the robustness of those results using the greater computing resources available today. Our analysis reveals several unanticipated features of the system, demonstrating a surprising mix of dynamical robustness and fragility. Specifically, we find that complex, stable organizations emerge more frequently than previously expected, that these organizations are robust against collapse into trivial fixed-points, but that these stable organizations cannot be easily combined into higher order entities. We also study the role played by the random generators used in the model, characterizing the initial distribution of objects produced by two random expression generators, and their consequences on the results. Finally, we provide a constructive proof that shows how an extension of the model, based on typed $\lambda$ calculus, could simulate transitions between arbitrary states in any possible chemical reaction network, thus indicating a concrete connection between AlChemy and chemical reaction networks. We conclude with a discussion of possible applications of AlChemy to self-organization in modern programming languages and quantitative approaches to the origin of life.
翻訳日:2024-08-26 10:14:02 公開日:2024-08-23
# Transientangelo: 単光Lidarを用いた多視点表面再構成

Transientangelo: Few-Viewpoint Surface Reconstruction Using Single-Photon Lidar ( http://arxiv.org/abs/2408.12191v2 )

ライセンス: Link先を確認
Weihan Luo, Anagh Malik, David B. Lindell, (参考訳) そこで本研究では,ライダーシステムからの生測値を用いて,少数視点3次元表面再構成の問題点を考察する。 ライダーは、ターゲットに光のパルスを放出し、反射光の光速遅延を記録することで、3Dシーンの幾何学を捉えている。 しかし、従来のライダーシステムは、後方散乱光の生で捕獲された波形を出力せず、代わりにこれらのデータを3Dポイントクラウドに前処理する。 この手順は、通常、システムのノイズ統計を正確にモデル化したり、空間的先行情報を利用したり、下流のタスクに関する情報を組み込んだりしないため、最終的に後方散乱光の生測値に符号化された有用な情報を捨てる。 本稿では,複数の視点から単一光子ライダーシステムを用いて得られた生測値を利用して,シーンの神経表面表現を最適化する手法を提案する。 この測定は、ピコ秒の時間スケールで後方散乱光に関する情報をキャプチャする時間分解光子計数ヒストグラム(英語版)またはトランジェントから構成される。 さらに,光子ノイズに対するロバスト性を向上させる新たな正則化手法を開発し,画素あたり10光子程度で正確な表面再構成を可能にする。 提案手法は,シミュレーションやキャプチャデータを用いて,深度マップ,点雲,あるいは従来のライダーに基づく少数視点3次元再構成において,他の手法よりも優れる。

We consider the problem of few-viewpoint 3D surface reconstruction using raw measurements from a lidar system. Lidar captures 3D scene geometry by emitting pulses of light to a target and recording the speed-of-light time delay of the reflected light. However, conventional lidar systems do not output the raw, captured waveforms of backscattered light; instead, they pre-process these data into a 3D point cloud. Since this procedure typically does not accurately model the noise statistics of the system, exploit spatial priors, or incorporate information about downstream tasks, it ultimately discards useful information that is encoded in raw measurements of backscattered light. Here, we propose to leverage raw measurements captured with a single-photon lidar system from multiple viewpoints to optimize a neural surface representation of a scene. The measurements consist of time-resolved photon count histograms, or transients, which capture information about backscattered light at picosecond time scales. Additionally, we develop new regularization strategies that improve robustness to photon noise, enabling accurate surface reconstruction with as few as 10 photons per pixel. Our method outperforms other techniques for few-viewpoint 3D reconstruction based on depth maps, point clouds, or conventional lidar as demonstrated in simulation and with captured data.
翻訳日:2024-08-26 10:14:02 公開日:2024-08-23
# 次世代Dense Retrievalの基礎としての大規模言語モデル:包括的実証評価

Large Language Models as Foundations for Next-Gen Dense Retrieval: A Comprehensive Empirical Assessment ( http://arxiv.org/abs/2408.12194v2 )

ライセンス: Link先を確認
Kun Luo, Minghao Qin, Zheng Liu, Shitao Xiao, Jun Zhao, Kang Liu, (参考訳) BERTやT5のような事前訓練された言語モデルは、高密度検索のための重要なバックボーンエンコーダとして機能する。 しかし、これらのモデルはしばしば限定的な一般化能力を示し、ドメインの正確性を改善する上での課題に直面している。 近年,大規模言語モデル (LLM) をレトリバーとして使用し,様々なタスクでSOTA性能を達成している。 これらの進歩にもかかわらず、従来のレトリバーに対するLLMの特定の利点と、パラメータサイズ、事前学習時間、アライメントプロセスなどの異なるLLM構成の影響は、まだ不明である。 本研究では,ドメイン精度,データ効率,ゼロショット一般化,長大検索,命令ベース検索,マルチタスク学習など,幅広い検索タスクに関する総合的研究を行う。 我々は15種類以上の背骨LLMと非LLMを評価した。 以上の結果から,より大きなモデルと広範な事前訓練がドメインの精度とデータ効率を継続的に向上させることが明らかとなった。 さらに、より大規模なモデルでは、ゼロショットの一般化、長い検索、命令ベースの検索、マルチタスク学習において大きなポテンシャルを示す。 これらの結果は,LLMの高密度検索における汎用的で効果的なバックボーンエンコーダとしての利点を裏付けるものであり,今後の研究・開発に有用な知見を提供するものである。

Pretrained language models like BERT and T5 serve as crucial backbone encoders for dense retrieval. However, these models often exhibit limited generalization capabilities and face challenges in improving in domain accuracy. Recent research has explored using large language models (LLMs) as retrievers, achieving SOTA performance across various tasks. Despite these advancements, the specific benefits of LLMs over traditional retrievers and the impact of different LLM configurations, such as parameter sizes, pretraining duration, and alignment processes on retrieval tasks remain unclear. In this work, we conduct a comprehensive empirical study on a wide range of retrieval tasks, including in domain accuracy, data efficiency, zero shot generalization, lengthy retrieval, instruction based retrieval, and multi task learning. We evaluate over 15 different backbone LLMs and non LLMs. Our findings reveal that larger models and extensive pretraining consistently enhance in domain accuracy and data efficiency. Additionally, larger models demonstrate significant potential in zero shot generalization, lengthy retrieval, instruction based retrieval, and multi task learning. These results underscore the advantages of LLMs as versatile and effective backbone encoders in dense retrieval, providing valuable insights for future research and development in this field.
翻訳日:2024-08-26 10:14:02 公開日:2024-08-23
# 大規模言語モデルに基づく軽量ドメイン特化Q&Aモデルの微調整

Enhanced Fine-Tuning of Lightweight Domain-Specific Q&A Model Based on Large Language Models ( http://arxiv.org/abs/2408.12247v2 )

ライセンス: Link先を確認
Shenglin Zhang, Pengtian Zhu, Minghua Ma, Jiagang Wang, Yongqian Sun, Dongwen Li, Jingyu Wang, Qianying Guo, Xiaolei Hua, Lin Zhu, Dan Pei, (参考訳) 大規模言語モデル(LLM)は、一般的な質問回答(Q&A)では優れているが、ドメイン固有の知識が不足しているため、専門分野では不足することが多い。 企業では、微調整のためにLLMを巻き込む場合、プライバシー保護とリソース制約という2つの課題に直面している。 本稿では,複数の反復的な微調整ラウンドを通じて軽量なLLMを活用することで,これらの問題に対処する新しいフレームワークであるSelf-Evolutionを提案する。 反復的微調整の効率を高めるために、Self-Evolutionでは、反復的プロセス中に高い価値で知識をフィルタリングし強化する戦略を採用している。 また,Qwen1.5-7B-ChatよりもQwen1.5-7B-Chat,さらにQwen1.5-72B-Chatより22%高い結果を得た。 セルフエボリューション(Self-Evolution)は、中国モバイルの日常業務とメンテナンスに117日間展開され、アラームの発見、問題修正、および関連する報告の発見の効率を改善し、18.6%以上の効率改善を実現している。 さらに、私たちはSelf-Evolutionフレームワークのコードをhttps://github.com/Zero-Pointer/Self-Evolutionでリリースしています。

Large language models (LLMs) excel at general question-answering (Q&A) but often fall short in specialized domains due to a lack of domain-specific knowledge. Commercial companies face the dual challenges of privacy protection and resource constraints when involving LLMs for fine-tuning. This paper propose a novel framework, Self-Evolution, designed to address these issues by leveraging lightweight open-source LLMs through multiple iterative fine-tuning rounds. To enhance the efficiency of iterative fine-tuning, Self-Evolution employ a strategy that filters and reinforces the knowledge with higher value during the iterative process. We employed Self-Evolution on Qwen1.5-7B-Chat using 4,000 documents containing rich domain knowledge from China Mobile, achieving a performance score 174% higher on domain-specific question-answering evaluations than Qwen1.5-7B-Chat and even 22% higher than Qwen1.5-72B-Chat. Self-Evolution has been deployed in China Mobile's daily operation and maintenance for 117 days, and it improves the efficiency of locating alarms, fixing problems, and finding related reports, with an average efficiency improvement of over 18.6%. In addition, we release Self-Evolution framework code in https://github.com/Zero-Pointer/Self-Evolution.
翻訳日:2024-08-26 10:14:02 公開日:2024-08-23
# GarmentAligner: 検索強化多レベル補正によるテキスト・ツー・ゲージ生成

GarmentAligner: Text-to-Garment Generation via Retrieval-augmented Multi-level Corrections ( http://arxiv.org/abs/2408.12352v2 )

ライセンス: Link先を確認
Shiyue Zhang, Zheng Chong, Xujie Zhang, Hanhui Li, Yuhao Cheng, Yiqiang Yan, Xiaodan Liang, (参考訳) 一般的なテキスト・ツー・イメージモデルは、芸術、デザイン、メディアの分野に革新をもたらす。 しかし、衣料品生成に適用した場合、最先端のテクスト・ツー・イメージモデルでさえ、特に衣服部品の量、位置、相互関係に関して、細粒度のセマンティック・アライメントに悩まされる。 そこで本稿では,検索による多段階補正を訓練したテキストからガーメントへの拡散モデルであるGarmentAlignerを提案する。 コンポーネントレベルでのセマンティックアライメントを実現するため,自動コンポーネント抽出パイプラインを導入し,対応する画像やキャプションから衣服成分の空間的,定量的な情報を得る。 次に, 衣服画像中の成分関係を活用すべく, 成分レベルの類似度ランキングに基づく検索強化により, 各衣服の検索サブセットを構築し, 正および負のサンプルから成分のモデル知覚を高めるためにコントラスト学習を行う。 意味的,空間的,定量的な粒度にまたがるコンポーネントのアライメントを強化するために,詳細なコンポーネント情報を活用する多段階補正損失の利用を提案する。 実験結果から,GarmentAlignerは既存の競合相手と比較して優れた忠実度と微粒なセマンティックアライメントを実現することが示された。

General text-to-image models bring revolutionary innovation to the fields of arts, design, and media. However, when applied to garment generation, even the state-of-the-art text-to-image models suffer from fine-grained semantic misalignment, particularly concerning the quantity, position, and interrelations of garment components. Addressing this, we propose GarmentAligner, a text-to-garment diffusion model trained with retrieval-augmented multi-level corrections. To achieve semantic alignment at the component level, we introduce an automatic component extraction pipeline to obtain spatial and quantitative information of garment components from corresponding images and captions. Subsequently, to exploit component relationships within the garment images, we construct retrieval subsets for each garment by retrieval augmentation based on component-level similarity ranking and conduct contrastive learning to enhance the model perception of components from positive and negative samples. To further enhance the alignment of components across semantic, spatial, and quantitative granularities, we propose the utilization of multi-level correction losses that leverage detailed component information. The experimental findings demonstrate that GarmentAligner achieves superior fidelity and fine-grained semantic alignment when compared to existing competitors.
翻訳日:2024-08-26 10:14:02 公開日:2024-08-23
# RoundTable: 問合せ回答におけるクエリ精度向上のための動的スキーマと文脈自動補完の活用

RoundTable: Leveraging Dynamic Schema and Contextual Autocomplete for Enhanced Query Precision in Tabular Question Answering ( http://arxiv.org/abs/2408.12369v2 )

ライセンス: Link先を確認
Pratyush Kumar, Kuber Vijaykumar Bellad, Bharat Vadlamudi, Aman Chadha, (参考訳) LLM(Large Language Models)の進歩により、出現した主要なユースケースは、データベースを平易な英語でクエリし、ユーザ質問を実行可能なデータベースクエリに変換することである。 しかし、現実世界のデータセットは、多くの属性と複雑な値を特徴としており、自然言語クエリから関連する列や値を正確に識別するLLMタスクを複雑にしている。 従来の手法では、データセットのサイズと複雑さをLLMに完全にリレーすることはできない。 これらの課題に対処するために,入力テーブル上でFTS(Full-Text Search)を活用する新しいフレームワークを提案する。 このアプローチは、特定の値や列を正確に検出するだけでなく、言語モデルの検索スペースを狭め、クエリの精度を向上させる。 さらに、テーブル内のデータに基づいたクエリを推奨するカスタムの自動補完機能もサポートされている。 この統合により、ユーザと複雑なデータセット間のインタラクションが大幅に改善され、現在のテーブルクエリ機能によって直面する制限に対する高度なソリューションが提供される。 この作業にはMacとWindowsプラットフォーム用のアプリケーションが含まれており、読者は自身のデータで試すことができる。

With advancements in Large Language Models (LLMs), a major use case that has emerged is querying databases in plain English, translating user questions into executable database queries, which has improved significantly. However, real-world datasets often feature a vast array of attributes and complex values, complicating the LLMs task of accurately identifying relevant columns or values from natural language queries. Traditional methods cannot fully relay the datasets size and complexity to the LLM. To address these challenges, we propose a novel framework that leverages Full-Text Search (FTS) on the input table. This approach not only enables precise detection of specific values and columns but also narrows the search space for language models, thereby enhancing query accuracy. Additionally, it supports a custom auto-complete feature that suggests queries based on the data in the table. This integration significantly refines the interaction between the user and complex datasets, offering a sophisticated solution to the limitations faced by current table querying capabilities. This work is accompanied by an application for both Mac and Windows platforms, which readers can try out themselves on their own data.
翻訳日:2024-08-26 10:14:02 公開日:2024-08-23
# UMERegRobust - ロバストポイントクラウド登録のための互換性のある機能を組み込んだユニバーサルマニフォールド

UMERegRobust -- Universal Manifold Embedding Compatible Features for Robust Point Cloud Registration ( http://arxiv.org/abs/2408.12380v2 )

ライセンス: Link先を確認
Yuval Haitman, Amit Efraim, Joseph M. Francos, (参考訳) 本稿では,厳密な変換を推定するためのUME(Universal Manifold Embedding)フレームワークを採用し,それを拡張することにより,部分的な重複と異なるサンプルの点群を含むシナリオに対応する。 UMEは、剛体変換に関連する同じ物体の観測を単一の低次元線型部分空間にマッピングするために設計された方法論である。 この過程は、その行列形式表現が変換と共変(すなわち同変)であるような、観測の変換不変表現をもたらす。 独自のUMEコントラスト損失とサンプリング等化器を付加したUME互換特徴抽出手法を導入することで、UMEフレームワークを拡張した。 これらのコンポーネントは、UMERegRobustという、包括的で堅牢な登録パイプラインに統合される。 本稿では,大規模な回転を含むシナリオの登録方法を評価するために,RotKITTI登録ベンチマークを提案する。 UMERegRobust は KITTI ベンチマークの最先端性能よりも優れており、特に (1{\deg}, 10cm) の厳密な精度(平均利得+9%)が考慮され、特に RotKITTI ベンチマークの SOTA 法よりも優れている(最近の SOTA 法と比較すると +45% 向上)。

In this paper, we adopt the Universal Manifold Embedding (UME) framework for the estimation of rigid transformations and extend it, so that it can accommodate scenarios involving partial overlap and differently sampled point clouds. UME is a methodology designed for mapping observations of the same object, related by rigid transformations, into a single low-dimensional linear subspace. This process yields a transformation-invariant representation of the observations, with its matrix form representation being covariant (i.e. equivariant) with the transformation. We extend the UME framework by introducing a UME-compatible feature extraction method augmented with a unique UME contrastive loss and a sampling equalizer. These components are integrated into a comprehensive and robust registration pipeline, named UMERegRobust. We propose the RotKITTI registration benchmark, specifically tailored to evaluate registration methods for scenarios involving large rotations. UMERegRobust achieves better than state-of-the-art performance on the KITTI benchmark, especially when strict precision of (1{\deg}, 10cm) is considered (with an average gain of +9%), and notably outperform SOTA methods on the RotKITTI benchmark (with +45% gain compared the most recent SOTA method).
翻訳日:2024-08-26 10:14:02 公開日:2024-08-23
# Vintern-1B:ベトナム語のための効率的なマルチモーダル大言語モデル

Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese ( http://arxiv.org/abs/2408.12480v2 )

ライセンス: Link先を確認
Khang T. Doan, Bao G. Huynh, Dung T. Hoang, Thuc D. Pham, Nhat H. Pham, Quan T. M. Nguyen, Bang Q. Vo, Suong N. Hoang, (参考訳) 本稿ではベトナム語タスクのための信頼性の高い1ビリオンパラメトリック・マルチモーダル言語モデル(MLLM)であるVintern-1Bを紹介する。 Qwen2-0.5B-Instruct言語モデルとInternViT-300M-448pxビジュアルモデルを統合することで、Vintern-1Bは、光学文字認識(OCR)、文書抽出、ベトナムの文脈における一般的な質問応答など、幅広い用途に最適化されている。 このモデルは300万以上の画像検索と回答のペアからなる広範なデータセットに基づいて微調整され、OpenViVQAやViTextVQAといったベトナムの複数の言語ベンチマークで堅牢なパフォーマンスと信頼性を実現している。 Vintern-1Bは、様々なデバイス上のアプリケーションに簡単に適合できるほど小さい。 さらに、Gemini 1.5 Flashで作成されたテキストとダイアグラムのためのベトナムの視覚質問応答(VQA)データセットをオープンソース化しました。 私たちのモデルは、https://huggingface.co/5CD-AI/Vintern-1B-v2で利用可能です。

In this report, we introduce Vintern-1B, a reliable 1-billion-parameters multimodal large language model (MLLM) for Vietnamese language tasks. By integrating the Qwen2-0.5B-Instruct language model with the InternViT-300M-448px visual model, Vintern-1B is optimized for a range of applications, including optical character recognition (OCR), document extraction, and general question-answering in Vietnamese context. The model is fine-tuned on an extensive dataset of over 3 million image-question-answer pairs, achieving robust performance and reliable results across multiple Vietnamese language benchmarks like OpenViVQA and ViTextVQA. Vintern-1B is small enough to fit into various on-device applications easily. Additionally, we have open-sourced several Vietnamese vision question answering (VQA) datasets for text and diagrams, created with Gemini 1.5 Flash. Our models are available at: https://huggingface.co/5CD-AI/Vintern-1B-v2.
翻訳日:2024-08-26 10:14:02 公開日:2024-08-23
# 好ましくないグラフ事前学習とプロンプト学習

Non-Homophilic Graph Pre-Training and Prompt Learning ( http://arxiv.org/abs/2408.12594v2 )

ライセンス: Link先を確認
Xingtong Yu, Jie Zhang, Yuan Fang, Renhe Jiang, (参考訳) グラフは様々な分野にわたるオブジェクト間の複雑な関係をモデル化するためにユビキタスである。 グラフニューラルネットワーク(GNN)はグラフベースのアプリケーションでは主要な技術となっているが、その性能は豊富なラベル付きデータに大きく依存している。 ラベリングの要件を減らすために、事前学習と迅速な学習が一般的な選択肢となっている。 しかし、既存のプロンプト法のほとんどは、実世界のグラフのホモ親和性とヘテロ親和性の特徴を区別しない。 特に、多くの実世界のグラフは非ホモ親和性であり、厳密にも一様でもホモ親和性を持たず、ホモ親和性とヘテロ親和性を持つパターンを混合し、グラフやノード間で異なる非ホモ親和性を示す。 本稿では,非親和性グラフのための新しい事前学習および迅速な学習フレームワークProNoGを提案する。 まず、既存のグラフ事前学習手法を分析し、事前学習タスクの選択に関する理論的知見を提供する。 第2に,各ノードが特異な非ホモフィル性を示すことを認識し,下流タスクにおけるノード固有のパターンを特徴付ける条件付きネットワークを提案する。 最後に,10の公開データセットに関する広範な実験を通じて,ProNoGを徹底的に評価・解析する。

Graphs are ubiquitous for modeling complex relationships between objects across various fields. Graph neural networks (GNNs) have become a mainstream technique for graph-based applications, but their performance heavily relies on abundant labeled data. To reduce labeling requirement, pre-training and prompt learning has become a popular alternative. However, most existing prompt methods do not differentiate homophilic and heterophilic characteristics of real-world graphs. In particular, many real-world graphs are non-homophilic, not strictly or uniformly homophilic with mixing homophilic and heterophilic patterns, exhibiting varying non-homophilic characteristics across graphs and nodes. In this paper, we propose ProNoG, a novel pre-training and prompt learning framework for such non-homophilic graphs. First, we analyze existing graph pre-training methods, providing theoretical insights into the choice of pre-training tasks. Second, recognizing that each node exhibits unique non-homophilic characteristics, we propose a conditional network to characterize the node-specific patterns in downstream tasks. Finally, we thoroughly evaluate and analyze ProNoG through extensive experiments on ten public datasets.
翻訳日:2024-08-26 10:14:02 公開日:2024-08-23