このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240107となっている論文です。

PDF登録状況(公開日: 20240107)

TitleAuthorsAbstract論文公表日・翻訳日
# 局所飽和値変換とソフトセグメンテーションによるヘイズ除去

Haze Removal via Regional Saturation-Value Translation and Soft Segmentation ( http://arxiv.org/abs/2403.12054v1 )

ライセンス: Link先を確認
Le-Anh Tran, Dong-Chul Park, (参考訳) そこで本稿では, 従来の鮮やかな領域における色歪み問題に対処するため, 地域飽和値変換 (RSVT) と呼ばれる単一画像デハージング手法を提案する。 RSVTは、HSV色空間におけるヘイズフリー点とヘイズフリー点の関係に関する2つの重要な観測に基づいて開発された。 第一に、色成分は対応するハズフリー点とハズフリー点の間の限界変動を示し、ハズによって誘導される画素値の変動が主に飽和と値空間で起こるという仮説を固める。 第二に、2次元飽和値座標系では、ほとんどの線が大気中の光の座標の近くで交わりやすい。 これにより、飽和値座標を適切に翻訳することにより、明るい領域に対するヘイズ除去を行うことができる。 また, モルフォロジー min-max チャネルに基づく効果的なソフトセグメンテーション手法を提案する。 ソフトセグメンテーションマスクとRSVTを併用することにより、総合的な単一画像デハージングフレームワークが考案される。 様々な合成および現実的なハジー画像データセットの実験結果から,提案手法が色歪み問題に対処し,視覚的に魅力的な画像の復元に成功していることが示された。 この作業のコードはhttps://github.com/tranleanh/rsvt.comで公開されている。

This paper proposes a single image dehazing prior, called Regional Saturation-Value Translation (RSVT), to tackle the color distortion problems caused by conventional dehazing approaches in bright regions. The RSVT prior is developed based on two key observations regarding the relationship between hazy and haze-free points in the HSV color space. First, the hue component shows marginal variation between corresponding hazy and haze-free points, consolidating a hypothesis that the pixel value variability induced by haze primarily occurs in the saturation and value spaces. Second, in the 2D saturation-value coordinate system, most lines passing through hazy-clean point pairs are likely to intersect near the atmospheric light coordinates. Accordingly, haze removal for the bright regions can be performed by properly translating saturation-value coordinates. In addition, an effective soft segmentation method based on a morphological min-max channel is introduced. By combining the soft segmentation mask with the RSVT prior, a comprehensive single image dehazing framework is devised. Experimental results on various synthetic and realistic hazy image datasets demonstrate that the proposed scheme successfully addresses color distortion issues and restores visually appealing images. The code of this work is available at https://github.com/tranleanh/rsvt.
翻訳日:2024-03-25 07:46:43 公開日:2024-01-07
# 新しい軽量加法準同型暗号アルゴリズム

A new lightweight additive homomorphic encryption algorithm ( http://arxiv.org/abs/2312.06987v2 )

ライセンス: Link先を確認
Wuqiong Pan, Hongliang Gu, (参考訳) 本稿では、同じ暗号鍵と復号鍵を持つ軽量な加法的同型アルゴリズムについて述べる。 Paillierのような標準加法準同型アルゴリズムと比較して、このアルゴリズムは、暗号化と復号化の計算コストをモジュラー指数化からモジュラー乗算に減らし、暗号テキスト加算の計算コストをモジュラー乗算からモジュラー加算に減らした。 このアルゴリズムは、2つの除算演算において、2つの剰余が関係しているときに配当に基づいて残りまたは因子を推測できるかどうかという、新しい数学的問題に基づいている。 現在、この問題を打破する方法は明確ではないが、十分に難しいかどうかを判断するためには、さらなる調査が必要である。 この数学的問題に加えて、本文で述べた2つのアルゴリズムで使用される復号化のための興味深い2つの数学的構造も設計した。 アルゴリズム2の復号化構造が新たなセキュリティ脆弱性をもたらす可能性はあるが、この問題を徹底的に調査していない。

This article describes a lightweight additive homomorphic algorithm with the same encryption and decryption keys. Compared to standard additive homomorphic algorithms like Paillier, this algorithm reduces the computational cost of encryption and decryption from modular exponentiation to modular multiplication, and reduces the computational cost of ciphertext addition from modular multiplication to modular addition. This algorithm is based on a new mathematical problem: in two division operations, whether it is possible to infer the remainder or divisor based on the dividend when two remainders are related. Currently, it is not obvious how to break this problem, but further exploration is needed to determine if it is sufficiently difficult. In addition to this mathematical problem, we have also designed two interesting mathematical structures for decryption, which are used in the two algorithms mentioned in the main text. It is possible that the decryption structure of Algorithm 2 introduces new security vulnerabilities, but we have not investigated this issue thoroughly.
翻訳日:2024-03-18 12:36:38 公開日:2024-01-07
# Ensemble Defense System: 効果的なサイバー脅威検出のためのハイブリッドIDSアプローチ

Ensemble Defense System: A Hybrid IDS Approach for Effective Cyber Threat Detection ( http://arxiv.org/abs/2401.03491v1 )

ライセンス: Link先を確認
Sarah Alharbi, Arshiya Khan, (参考訳) 高度化したサイバー攻撃は、そのような脅威を検出し予防する上で、組織にとって重要な課題である。 先進的な防衛機構に対する重要なニーズに対処するため,我々はEDS(Ensemble Defense System)を提案する。 EDSは、サイバー攻撃中に組織を監視し警告するために設計された複数のセキュリティツールを集約するサイバーセキュリティフレームワークである。 提案するEDSは,シグネチャベースIDSと異常ベースIDSツールのハイブリッドを導入することで,包括的な侵入検知システム(IDS)機能を活用する。 また、オープンソースのSecurity Information and Event Management(SIEM)ツールであるElasticsearchも組み込まれており、IDSから生成されたアラートのデータ分析とインタラクティブな可視化を容易にする。 EDSの有効性は、ポートスキャン、特権エスカレーション、DoS(Denial-of-Service)など、さまざまなアタックを実行するbashスクリプトからのペイロードを通じて評価される。 この評価は、EDSが多様なサイバー攻撃を検出する能力を示している。

Sophisticated cyber attacks present significant challenges for organizations in detecting and preventing such threats. To address this critical need for advanced defense mechanisms, we propose an Ensemble Defense System (EDS). An EDS is a cybersecurity framework aggregating multiple security tools designed to monitor and alert an organization during cyber attacks. The proposed EDS leverages a comprehensive range of Intrusion Detection System (IDS) capabilities by introducing a hybrid of signature-based IDS and anomaly-based IDS tools. It also incorporates Elasticsearch, an open-source Security Information and Event Management (SIEM) tool, to facilitate data analysis and interactive visualization of alerts generated from IDSs. The effectiveness of the EDS is evaluated through a payload from a bash script that executes various attacks, including port scanning, privilege escalation, and Denial-of-Service (DoS). The evaluation demonstrates the EDS's ability to detect diverse cyber attacks.
翻訳日:2024-03-18 08:46:40 公開日:2024-01-07
# AIインシデントと「ネットワークトラブル」--研究課題の場合

AI incidents and 'networked trouble': The case for a research agenda ( http://arxiv.org/abs/2403.07879v1 )

ライセンス: Link先を確認
Tommy Shaffer Shane, (参考訳) 一般大衆がAIの設計に参加する方法に対する幅広い関心を背景に、私は、AIインシデント(AIの失敗と論争を引き起こす事例)と、それらがオンライン環境でどのように構築されているかに焦点を当てた研究課題について論じます。 私は、2020年9月のAIインシデントを例にとり、あるTwitterユーザーが「恐ろしい実験」を作成して、画像の収集のためのTwitterのアルゴリズムの人種差別的偏見を実証した。 結果としてTwitterは、そのアルゴリズムの使用を放棄しただけでなく、そのタスクにアルゴリズムを使用する決定を否定した。 このようなAIインシデントは、さらなる研究を必要とするAIシステムに参加する上で重要な手段である、と私は主張する。 その研究課題は、私が言うネットワーク化されたオンライン行動を通じてインシデントがどのように構築されるかに焦点を当てるべきである、と私は主張する。 AIの設計と展開に参加するための重要なメカニズムである、と私は主張する。

Against a backdrop of widespread interest in how publics can participate in the design of AI, I argue for a research agenda focused on AI incidents - examples of AI going wrong and sparking controversy - and how they are constructed in online environments. I take up the example of an AI incident from September 2020, when a Twitter user created a 'horrible experiment' to demonstrate the racist bias of Twitter's algorithm for cropping images. This resulted in Twitter not only abandoning its use of that algorithm, but also disavowing its decision to use any algorithm for the task. I argue that AI incidents like this are a significant means for participating in AI systems that require further research. That research agenda, I argue, should focus on how incidents are constructed through networked online behaviours that I refer to as 'networked trouble', where formats for participation enable individuals and algorithms to interact in ways that others - including technology companies - come to know and come to care about. At stake, I argue, is an important mechanism for participating in the design and deployment of AI.
翻訳日:2024-03-18 06:00:28 公開日:2024-01-07
# 西アフリカにおけるサイバー犯罪の包括的分析

A Comprehensive Analytical Review on Cybercrime in West Africa ( http://arxiv.org/abs/2402.01649v1 )

ライセンス: Link先を確認
Victor Adewopo, Sylvia Worlali Azumah, Mustapha Awinsongya Yakubu, Emmanuel Kojo Gyamfi, Murat Ozer, Nelly Elsayed(参考訳) サイバー犯罪は、この地域のテクノロジーとインターネットの浸透が増大しているため、西アフリカで懸念が高まっている。 法的な枠組みはサイバー犯罪の制御を導くのに不可欠である。 しかし, この実施は, 専門的かつ効果的な地域機関のフォローアップ機構が欠如していることから, 法執行機関にとって困難であることが証明されている。 本研究は,西アフリカにおけるサイバー犯罪の発生状況,政策,規制,サイバー犯罪対策の方法論に焦点を当てた体系的文献レビューを行った。 西アフリカ諸国は、不十分な資源とセキュリティ専門家の失態によって悪化し、サイバー犯罪の重大な課題に直面している。 本研究は,サイバー攻撃やサイバーいじめといった重要な分野をカバーするために,トリアージフレームワークの活用や研究の拡大など,サイバー犯罪防止策の可能性を浮き彫りにする。 我々の研究結果は、政策立案者や法執行機関がより効率的な予防戦略や政策を策定する緊急性を強調している。 本研究は、西アフリカにおけるサイバー犯罪の現状に関する貴重な知見を提供し、強力な予防と介入戦略の定式化を導く。

Cybercrime is a growing concern in West Africa due to the increasing use of technology and internet penetration in the region. Legal frameworks are essential for guiding the control of cybercrime. However, the implementation proves challenging for law enforcement agencies due to the absence of a dedicated and effective regional institutional follow-up mechanism. This study conducted a systematic literature review focusing on West Africa's prevalence of cybercrime, governing policies, regulations, and methodologies for combating cybercrime. West-Africa countries face significant cybercrime challenges, exacerbated by inadequate resources and a dearth of security experts. This study pinpoints potential cybercrime prevention strategies, such as leveraging the Triage framework and broadening research to cover pivotal areas like cyber aggression and cyberbullying. Our research findings highlight the urgency for policymakers and law enforcement agencies to devise more efficient prevention strategies and policies. Overall, this study provides invaluable insights into the state of cybercrime in West Africa to guide the formulation of potent prevention and intervention strategies.
翻訳日:2024-02-11 17:17:05 公開日:2024-01-07
# 情報セキュリティにおけるキャリアの必要性 : 包括的レビュー

Requirements for a Career in Information Security: A Comprehensive Review ( http://arxiv.org/abs/2402.03324v1 )

ライセンス: Link先を確認
Mike Nkongolo, Nita Mennega, Izaan van Zyl(参考訳) 本研究は,情報セキュリティ(IS)分野におけるキャリアの育成に必要な前提条件を明らかにするために,徹底的な文献レビューを実施して方法論を採用する。 主な目的は、情報セキュリティ(IS)分野における多様な機会に対する認識を高めることである。 最初の検索では、"cybersecurity" と "skills" というキーワードを使って4つの著名な学術データベースを検索し、1,520件の記事の実質的なコーパスを同定した。 厳密なスクリーニング基準を適用した後、さらに分析するために31の関連論文を精査した。 これらの研究をテーマとして,IS専門家が持つべき重要な知識とスキルを特定し,解説した。 調査の結果は、サイバーセキュリティ領域で必要な技術能力を取得するために必要な時間的投資の重要性を強調している。 さらに、この研究は、フィールドのユニークな要件により、サイバーセキュリティのキャリアを追求する女性のジェンダー関連障害の存在を認識している。 女性は、最初は低いレベルで職業に入り、その後個々の状況に基づいて進むことで、これらの障壁を克服できる可能性があることを示唆している。

This research paper adopts a methodology by conducting a thorough literature review to uncover the essential prerequisites for achieving a prosperous career in the field of Information Security (IS). The primary objective is to increase public awareness regarding the diverse opportunities available in the Information Security (IS) field. The initial search involved scouring four prominent academic databases using the specific keywords "cybersecurity" and "skills," resulting in the identification of a substantial corpus of 1,520 articles. After applying rigorous screening criteria, a refined set of 31 relevant papers was selected for further analysis. Thematic analysis was conducted on these studies to identify and delineate the crucial knowledge and skills that an IS professional should possess. The research findings emphasize the significant time investment required for individuals to acquire the necessary technical proficiency in the cybersecurity domain. Furthermore, the study recognizes the existence of gender-related obstacles for women pursuing cybersecurity careers due to the field's unique requirements. It suggests that females can potentially overcome these barriers by initially entering the profession at lower levels and subsequently advancing based on individual circumstances.
翻訳日:2024-02-11 15:53:04 公開日:2024-01-07
# ジェネレーティブAIとChatGPTは、科学における認知要求問題解決タスクにおいて人間より優れているか?

Can generative AI and ChatGPT outperform humans on cognitive-demanding problem-solving tasks in science? ( http://arxiv.org/abs/2401.15081v1 )

ライセンス: Link先を確認
Xiaoming Zhai, Matthew Nyaaba, and Wenchao Ma(参考訳) 本研究の目的は、生成人工知能(GAI)ツールが、問題解決において人間が苦しむ認知的強度を克服できるという仮定を検討することである。 2019年のNAEPにおけるChatGPTとGPT-4のパフォーマンスを,各項目の認知的要求によって比較した。 タスク認知の複雑さと次元性を含む2次元認知負荷フレームワークを使用して、専門家が25のタスクをコーディングした。 NAEPのスコアキーを用いてChatGPTとGPT-4の応答を測定した。 利用可能なデータの解析は、各項目に正しく回答した学生の平均学生能力スコアと、個々の項目に回答した学生の割合に基づいて行われた。 その結果、ChatGPTとGPT-4は、NAEPの科学評価に回答したほとんどの生徒より一貫して優れていた。 naepタスクの認知的要求が増加するにつれて、統計的に平均的な学生能力スコアが要求される。 このパターンは4年生,8年生,12年生にそれぞれ観察された。 しかし、chatgpt と gpt-4 は、グレード4 を除いて、タスクの認知的要求の増加に対して統計的に敏感ではなかった。 科学における問題解決におけるGAIとK-12の学生の比較に焦点をあてた最初の研究として、この発見は、将来、GAIツールを扱う能力を持つ学生を準備するための教育目的の変更の必要性を示唆している。 教育は、認知の強度を必要とするタスクのみに依存するのではなく、高度な認知スキルの育成を強調すべきである。 このアプローチは批判的思考、分析的スキル、新しい文脈における知識の応用を促進する。 発見はまた、より効率的なテストにおけるGAIのネガティブな影響を避けるために、認知力タスクから創造性や分析スキルに移行することで、革新的な評価プラクティスの必要性も示唆している。

This study aimed to examine an assumption that generative artificial intelligence (GAI) tools can overcome the cognitive intensity that humans suffer when solving problems. We compared the performance of ChatGPT and GPT-4 on 2019 NAEP science assessments with students by cognitive demands of the items. Fifty-four tasks were coded by experts using a two-dimensional cognitive load framework, including task cognitive complexity and dimensionality. ChatGPT and GPT-4 responses were scored using the scoring keys of NAEP. The analysis of the available data was based on the average student ability scores for students who answered each item correctly and the percentage of students who responded to individual items. Results showed that both ChatGPT and GPT-4 consistently outperformed most students who answered the NAEP science assessments. As the cognitive demand for NAEP tasks increases, statistically higher average student ability scores are required to correctly address the questions. This pattern was observed for students in grades 4, 8, and 12, respectively. However, ChatGPT and GPT-4 were not statistically sensitive to the increase in cognitive demands of the tasks, except for Grade 4. As the first study focusing on comparing GAI and K-12 students in problem-solving in science, this finding implies the need for changes to educational objectives to prepare students with competence to work with GAI tools in the future. Education ought to emphasize the cultivation of advanced cognitive skills rather than depending solely on tasks that demand cognitive intensity. This approach would foster critical thinking, analytical skills, and the application of knowledge in novel contexts. Findings also suggest the need for innovative assessment practices by moving away from cognitive intensity tasks toward creativity and analytical skills to avoid the negative effects of GAI on testing more efficiently.
翻訳日:2024-02-04 05:33:43 公開日:2024-01-07
# 時空間的相互作用変調によるトポロジカルポンピング

Topological pumping induced by spatiotemporal modulation of interaction ( http://arxiv.org/abs/2401.10906v1 )

ライセンス: Link先を確認
Boning Huang, Yongguan Ke, Wenjie Liu, Chaohong Lee(参考訳) 粒子と粒子の相互作用は新しい位相現象を誘導する新しい自由度を与える。 本稿では,相互作用の時空間的変調を用いて,単粒子を伴わない位相的ポンピングを実現することを提案する。 変調は時間反転対称性を破るので、境界状態の多粒子エネルギーバンドはチャーン数ゼロであり、位相的境界状態をサポートする。 Thoulessポンプでは、トポロジカルエネルギーバンドを均一に占有する有界状態は、対応するチャーン数と一致する1サイクルあたりの整数単位セルによってシフトすることができる。 また,一方の端から他方の端までの境界状態のトポロジカルポンピングを実現することができる。 粒子間の絡み合いのエントロピーは、有界対の空間拡散に関連する遷移点において急速に増加する。 さらに, 境界状態のトポロジカルポンピングと単一粒子のブロッホ振動を分離するために, 余分な傾き電位を付加することにより, 周期毎に分数変位のハイブリッドポンピングを実現することを提案する。 我々の研究は、単一の粒子を持たない相関したトポロジカル現象のさらなる研究を呼び起こすかもしれない。

Particle-particle interaction provides a new degree of freedom to induce novel topological phenomena. Here, we propose to use spatiotemporal modulation of interaction to realize topological pumping without single-particle counterpart. Because the modulation breaks time-reversal symmetry, the multiparticle energy bands of bound states have none-zero Chern number, and support topological bound edge states. In a Thouless pump, a bound state that uniformly occupies a topological energy band can be shifted by integer unit cells per cycle, consistent with the corresponding Chern number. We can also realize topological pumping of bound edge state from one end to another. The entanglement entropy between particles rapidly increases at transition points, which is related to the spatial spread of a bounded pair. In addition, we propose to realize hybridized pumping with fractional displacement per cycle by adding an extra tilt potential to separate topological pumping of the bound state and Bloch oscillations of single particle. Our work could trigger further studies of correlated topological phenomena that do not have a single-particle counterpart.
翻訳日:2024-01-28 16:08:41 公開日:2024-01-07
# リアルタイムマルチソースハリケーン避難通知の情報検索と分類

Information Retrieval and Classification of Real-Time Multi-Source Hurricane Evacuation Notices ( http://arxiv.org/abs/2401.06789v1 )

ライセンス: Link先を確認
Tingting Zhao, Shubo Tian, Jordan Daly, Melissa Geiger, Minna Jia, Jinfeng Zhang(参考訳) 近づきつつある災害では、ハリケーン避難通知などの時間に敏感な重要な情報の追跡が困難である。 これらの通知は、複数の州にまたがる可能性のある多くの地方当局によって発行され、迅速に配布される。 しばしば頻繁な更新が行われ、標準フォーマットに欠ける多様なオンラインポータルを通じて配布される。 本研究では,局所的なハリケーン避難通知をタイムリーに検出し,追跡する手法を開発した。 テキストデータは,主に空間的対象のウェブスクレイピング法を用いて収集した。 それらは手動でラベル付けされ、ディープラーニングモデルを用いた自然言語処理技術を使用して分類された。 強制避難通知の分類は高い精度を達成した(リコール = 96%)。 我々は,ハリケーン・イアン (2022) を用いて,地方自治体から抽出されたリアルタイム避難通知を web gis システムに再配布する方法を示した。 今後のハリケーンに適用する手法は,高レベルな政府機関やニュースメディアに状況把握のためのライブデータを提供する。 アーカイブされたデータは、避難履歴に影響された気象警報や個人の行動に対する政府の反応を研究するのに役立ちます。 このフレームワークは、迅速かつ標的とした検索、分類、再配布、リアルタイムの政府命令と通知のアーカイブのための他の種類の災害に適用することができる。

For an approaching disaster, the tracking of time-sensitive critical information such as hurricane evacuation notices is challenging in the United States. These notices are issued and distributed rapidly by numerous local authorities that may spread across multiple states. They often undergo frequent updates and are distributed through diverse online portals lacking standard formats. In this study, we developed an approach to timely detect and track the locally issued hurricane evacuation notices. The text data were collected mainly with a spatially targeted web scraping method. They were manually labeled and then classified using natural language processing techniques with deep learning models. The classification of mandatory evacuation notices achieved a high accuracy (recall = 96%). We used Hurricane Ian (2022) to illustrate how real-time evacuation notices extracted from local government sources could be redistributed with a Web GIS system. Our method applied to future hurricanes provides live data for situation awareness to higher-level government agencies and news media. The archived data helps scholars to study government responses toward weather warnings and individual behaviors influenced by evacuation history. The framework may be applied to other types of disasters for rapid and targeted retrieval, classification, redistribution, and archiving of real-time government orders and notifications.
翻訳日:2024-01-22 12:28:00 公開日:2024-01-07
# CNVSRC 2023における音声認識のためのNPU-ASLP-LiAutoシステム記述

The NPU-ASLP-LiAuto System Description for Visual Speech Recognition in CNVSRC 2023 ( http://arxiv.org/abs/2401.06788v1 )

ライセンス: Link先を確認
He Wang, Pengcheng Guo, Wei Chen, Pan Zhou, Lei Xie(参考訳) 本稿では,第1回中国連続視覚音声認識チャレンジ(CNVSRC)2023において,NPU-ASLP-LiAuto(Team 237)が導入した視覚音声認識(VSR)システムについて述べる。 データ処理の観点からは、ベースライン1からの唇運動抽出器を利用して、マルチスケールビデオデータを生成する。 さらに、トレーニング中に、速度摂動、ランダム回転、水平反転、色変換を含む様々な拡張技術が適用される。 VSRモデルは、ResNet3Dビジュアルフロントエンド、E-Branchformerエンコーダ、Transformerデコーダを含む、共同CTC/アテンション損失を伴うエンドツーエンドアーキテクチャを採用する。 実験の結果,本システムはマルチシステム融合後のシングルスピーカタスクで34.76%,マルチスピーカタスクで41.06%,参加3トラックで1位となった。

This paper delineates the visual speech recognition (VSR) system introduced by the NPU-ASLP-LiAuto (Team 237) in the first Chinese Continuous Visual Speech Recognition Challenge (CNVSRC) 2023, engaging in the fixed and open tracks of Single-Speaker VSR Task, and the open track of Multi-Speaker VSR Task. In terms of data processing, we leverage the lip motion extractor from the baseline1 to produce multi-scale video data. Besides, various augmentation techniques are applied during training, encompassing speed perturbation, random rotation, horizontal flipping, and color transformation. The VSR model adopts an end-to-end architecture with joint CTC/attention loss, comprising a ResNet3D visual frontend, an E-Branchformer encoder, and a Transformer decoder. Experiments show that our system achieves 34.76% CER for the Single-Speaker Task and 41.06% CER for the Multi-Speaker Task after multi-system fusion, ranking first place in all three tracks we participate.
翻訳日:2024-01-22 12:27:42 公開日:2024-01-07
# バングラ語における深層学習に基づくサイバブリング検出

Deep Learning Based Cyberbullying Detection in Bangla Language ( http://arxiv.org/abs/2401.06787v1 )

ライセンス: Link先を確認
Sristy Shidul Nath, Razuan Karim and Mahdi H. Miraz(参考訳) インターネットは現在、意見、レビュー、コンテンツ、画像、ビデオなどの表現を含む世界的コミュニケーションのための最大のプラットフォームである。 さらにソーシャルメディアは、膨大な人気と急速に普及するトレンドのために、非常に広範かつ魅力的なプラットフォームになっている。 しかし、ソーシャルネットワーキングの増加は、オンライン暴行、脅迫、デジタルいじめ、犯罪、トロールなど、様々な望ましくない現象を引き起こす社会に有害な影響を及ぼす。 そのため、サイバーいじめは広汎で不安な問題となり、特に十代の若者や若者の間では、かなりの心理的、感情的な被害をもたらしている。 悪影響を減らし、被害者に迅速な支援を提供するため、さまざまなオンラインプラットフォームにおけるサイバーいじめインスタンスを特定するための多くの研究が進められている。 他の言語と比較して、バングラ語(ベンガル語としても知られる)はこの分野の研究が少ない。 本研究では,複数のソーシャルメディアサイトからの多用途コメント12282のデータセットを用いて,ベンガルにおけるサイバーいじめを識別する深層学習戦略を示す。 本研究では,2層型双方向長短期メモリ(Bi-LSTM)モデルを構築し,様々なオプティマイザと5倍のクロスバリデーションを用いたサイバーいじめの同定を行った。 提案システムの機能と有効性を評価するため,プロジェクト全体で厳密な評価と検証手法が採用されている。 本研究の結果,運動量に基づく確率勾配降下(sgd)オプティマイザーを用いたモデルの精度は94.46%であった。 また、Adam optimiserを用いた95.08%の精度とF1スコア95.23%の精度、および5倍のクロスバリデーションで94.31%の精度を反映している。

The Internet is currently the largest platform for global communication including expressions of opinions, reviews, contents, images, videos and so forth. Moreover, social media has now become a very broad and highly engaging platform due to its immense popularity and swift adoption trend. Increased social networking, however, also has detrimental impacts on the society leading to a range of unwanted phenomena, such as online assault, intimidation, digital bullying, criminality and trolling. Hence, cyberbullying has become a pervasive and worrying problem that poses considerable psychological and emotional harm to the people, particularly amongst the teens and the young adults. In order to lessen its negative effects and provide victims with prompt support, a great deal of research to identify cyberbullying instances at various online platforms is emerging. In comparison to other languages, Bangla (also known as Bengali) has fewer research studies in this domain. This study demonstrates a deep learning strategy for identifying cyberbullying in Bengali, using a dataset of 12282 versatile comments from multiple social media sites. In this study, a two-layer bidirectional long short-term memory (Bi-LSTM) model has been built to identify cyberbullying, using a variety of optimisers as well as 5-fold cross validation. To evaluate the functionality and efficacy of the proposed system, rigorous assessment and validation procedures have been employed throughout the project. The results of this study reveals that the proposed model's accuracy, using momentum-based stochastic gradient descent (SGD) optimiser, is 94.46%. It also reflects a higher accuracy of 95.08% and a F1 score of 95.23% using Adam optimiser as well as a better accuracy of 94.31% in 5-fold cross validation.
翻訳日:2024-01-22 12:27:20 公開日:2024-01-07
# Deep OFDM Channel Estimation: Capturing Frequency Recurrence

Deep OFDM Channel Estimation: Capturing Frequency Recurrence ( http://arxiv.org/abs/2401.05436v1 )

ライセンス: Link先を確認
Abu Shafin Mohammad Mahdee Jameel, Akshay Malhotra, Aly El Gamal, and Shahab Hamidi-Rad(参考訳) 本稿では,直交周波数分割多重化(OFDM)システムにおける深層学習に基づくチャネル推定手法を提案する。 提案手法であるsisrafnet(single slot repeat along frequency network)は,周波数にまたがるチャネルの逐次挙動を利用するための再帰モデルに関する新しい研究に基づいている。 無線チャネルが周波数間で高い相関関係にあるという事実を利用して、単一OFDMスロット内での繰り返しニューラルネットワーク技術を用いて、リカレンスベースの手法に典型的な遅延とメモリ制約を克服する。 提案したSisRafNetは,既存の深層学習に基づくチャネル推定手法と比較して優れた評価性能を示し,複数の信号対雑音比で第3世代パートナーシッププロジェクト(GPP)準拠のチャネルシナリオで評価されている。

In this paper, we propose a deep-learning-based channel estimation scheme in an orthogonal frequency division multiplexing (OFDM) system. Our proposed method, named Single Slot Recurrence Along Frequency Network (SisRafNet), is based on a novel study of recurrent models for exploiting sequential behavior of channels across frequencies. Utilizing the fact that wireless channels have a high degree of correlation across frequencies, we employ recurrent neural network techniques within a single OFDM slot, thus overcoming the latency and memory constraints typically associated with recurrence based methods. The proposed SisRafNet delivers superior estimation performance compared to existing deep-learning-based channel estimation techniques and the performance has been validated on a wide range of 3rd Generation Partnership Project (3GPP) compliant channel scenarios at multiple signal-to-noise ratios.
翻訳日:2024-01-13 02:45:54 公開日:2024-01-07
# 2つの射影ビューに対する臨界構成 : 新しいアプローチ

Critical configurations for two projective views, a new approach ( http://arxiv.org/abs/2112.05074v4 )

ライセンス: Link先を確認
Martin Br{\aa}telund(参考訳) 動きからの構造問題は、物体の3次元構造を2次元画像の集合から復元することに関わる。 一般に、十分な画像と画像ポイントが提供されると、すべての情報が一意に復元できるが、一意の回復が不可能な場合もあり、これらはクリティカルな構成と呼ばれる。 本稿では、2つの射影カメラの臨界構成を研究するために代数的手法を用いる。 すべての臨界構成は二次曲面上にあり、どの二次構成が臨界構成を構成するかを正確に分類する。 また, ユニークな再建が不可能な場合の異なる復元との関係についても述べる。

The problem of structure from motion is concerned with recovering 3-dimensional structure of an object from a set of 2-dimensional images. Generally, all information can be uniquely recovered if enough images and image points are provided, but there are certain cases where unique recovery is impossible; these are called critical configurations. In this paper we use an algebraic approach to study the critical configurations for two projective cameras. We show that all critical configurations lie on quadric surfaces, and classify exactly which quadrics constitute a critical configuration. The paper also describes the relation between the different reconstructions when unique reconstruction is impossible.
翻訳日:2024-01-10 23:23:03 公開日:2024-01-07
# 空間時間グラフリカレントネットワークのグローバルアウェア化:交通流予測のための新しいフレームワーク

Global-Aware Enhanced Spatial-Temporal Graph Recurrent Networks: A New Framework For Traffic Flow Prediction ( http://arxiv.org/abs/2401.04135v1 )

ライセンス: Link先を確認
Haiyang Liu, Chunjiang Zhu, Detian Zhang(参考訳) 交通流予測は交通渋滞の緩和と輸送効率の向上に重要な役割を果たしている。 この領域では、グラフ畳み込みネットワークとリカレントニューラルネットワークを組み合わせることが一般的な戦略であるが、リカレントニューラルネットワークの制限された構造は、グローバル情報をキャプチャする能力を制限する。 空間モデリングにおいて、多くの先行研究は、常に一定かつ均一であると考えられるグラフ構造を学ぶが、これは真実ではないかもしれない。 本稿では,空間時空間グラフリカレントニューラルネットワークとグローバル認知層という,新しい交通予測フレームワークであるGlobal-Aware Enhanced Spatial-Temporal Graph Recurrent Network (GA-STGRN)を紹介する。 この枠組みでは、3つの革新的な予測モデルが定式化されている。 シーケンス対応グラフニューラルネットワークを提案し,GRU(Gated Recurrent Unit)に統合し,異なる時間ステップで非固定グラフを学習し,局所的時間的関係を捉える。 モデルのグローバルな認識を高めるために,グローバルな認識層のために3つのグローバルな時空間トランスフォーマー様アーキテクチャ(GST^2)を考案した。 4つの実際のトラヒックデータセットについて広範な実験を行い,提案手法と3つの具体的モデルが優れていることを示す。

Traffic flow prediction plays a crucial role in alleviating traffic congestion and enhancing transport efficiency. While combining graph convolution networks with recurrent neural networks for spatial-temporal modeling is a common strategy in this realm, the restricted structure of recurrent neural networks limits their ability to capture global information. For spatial modeling, many prior studies learn a graph structure that is assumed to be fixed and uniform at all time steps, which may not be true. This paper introduces a novel traffic prediction framework, Global-Aware Enhanced Spatial-Temporal Graph Recurrent Network (GA-STGRN), comprising two core components: a spatial-temporal graph recurrent neural network and a global awareness layer. Within this framework, three innovative prediction models are formulated. A sequence-aware graph neural network is proposed and integrated into the Gated Recurrent Unit (GRU) to learn non-fixed graphs at different time steps and capture local temporal relationships. To enhance the model's global perception, three distinct global spatial-temporal transformer-like architectures (GST^2) are devised for the global awareness layer. We conduct extensive experiments on four real traffic datasets and the results demonstrate the superiority of our framework and the three concrete models.
翻訳日:2024-01-10 19:01:57 公開日:2024-01-07
# 完全 DiGraph を用いた Web ニューラルネットワーク

Web Neural Network with Complete DiGraphs ( http://arxiv.org/abs/2401.04134v1 )

ライセンス: Link先を確認
Frank Li(参考訳) 本稿では, 時間ステップ毎に連続データを処理する完全有向グラフとしてネットワークを構造化することで, 生体脳をより密接に模倣することを目的とした新しいニューラルネットワークモデルを提案する。 現在のニューラルネットワークは、神経細胞、畳み込み、再発などの脳構造を曖昧に模倣する構造を持っている。 本稿では、ニューロン接続にサイクルを導入し、他のネットワーク層でよく見られるシーケンシャルな性質を除去することにより、新たな構造特性を付加する。 さらに、モデルには、ニューラルネットワークにインスパイアされた連続的な入力と出力があり、ネットワークは最終結果を返すのではなく、分類のプロセスを学ぶことができる。

This paper introduces a new neural network model that aims to mimic the biological brain more closely by structuring the network as a complete directed graph that processes continuous data for each timestep. Current neural networks have structures that vaguely mimic the brain structure, such as neurons, convolutions, and recurrence. The model proposed in this paper adds additional structural properties by introducing cycles into the neuron connections and removing the sequential nature commonly seen in other network layers. Furthermore, the model has continuous input and output, inspired by spiking neural networks, which allows the network to learn a process of classification, rather than simply returning the final result.
翻訳日:2024-01-10 19:01:31 公開日:2024-01-07
# SynHIN: 説明可能なAIのための合成異種情報ネットワークの生成

SynHIN: Generating Synthetic Heterogeneous Information Network for Explainable AI ( http://arxiv.org/abs/2401.04133v1 )

ライセンス: Link先を確認
Ming-Yi Hong, Yi-Hsiang Huang, You-Chen Teng, Chih-Yu Wang, Che Lin(参考訳) グラフニューラルネットワーク(GNN)は、Eコマーススパムの検出からソーシャルネットワークの分類問題まで、さまざまな領域で優れている。 しかし、公開グラフデータセットの欠如は研究の進展を妨げ、特に異種情報ネットワーク(HIN)では顕著である。 公正なHIN比較のためのデータセットの需要は、GNN解釈モデルの進歩により増大している。 そこで本研究では,合成異種情報ネットワークを生成するユニークな手法であるSynHINを提案する。 synhinは現実世界のデータセットでモチーフを特定し、グラフ統計を要約し、合成ネットワークを構築する。 提案手法では,In-ClusterおよびOut-Cluster Mergeモジュールを用いて,一次モチーフクラスタから合成HINを構築する。 In/Our-Clusterの合併と実際のデータセット制約に適合した後処理の後に、合成グラフ統計が参照値と密接に一致することを保証する。 synhinは、ノード分類タスクのための合成不均一グラフデータセットを生成する。 不均一グラフデータセットの欠如とモチーフ基底真理に適応し、不均一グラフニューラルネットワークの説明器を評価するのに有用である。 さらに、将来の異種グラフ説明モデル研究のためのベンチマークデータセットを提案する。 私たちの研究は、HGNNにおける説明可能なAIへの大きな一歩です。

Graph Neural Networks (GNNs) excel in various domains, from detecting e-commerce spam to social network classification problems. However, the lack of public graph datasets hampers research progress, particularly in heterogeneous information networks (HIN). The demand for datasets for fair HIN comparisons is growing due to advancements in GNN interpretation models. In response, we propose SynHIN, a unique method for generating synthetic heterogeneous information networks. SynHIN identifies motifs in real-world datasets, summarizes graph statistics, and constructs a synthetic network. Our approach utilizes In-Cluster and Out-Cluster Merge modules to build the synthetic HIN from primary motif clusters. After In/Our-Cluster mergers and a post-pruning process fitting the real dataset constraints, we ensure the synthetic graph statistics align closely with the reference one. SynHIN generates a synthetic heterogeneous graph dataset for node classification tasks, using the primary motif as the explanation ground truth. It can adapt and address the lack of heterogeneous graph datasets and motif ground truths, proving beneficial for assessing heterogeneous graph neural network explainers. We further present a benchmark dataset for future heterogeneous graph explainer model research. Our work marks a significant step towards explainable AI in HGNNs.
翻訳日:2024-01-10 19:01:20 公開日:2024-01-07
# rhobin challenge: ヒューマンオブジェクトインタラクションの再構築

RHOBIN Challenge: Reconstruction of Human Object Interaction ( http://arxiv.org/abs/2401.04143v1 )

ライセンス: Link先を確認
Xianghui Xie and Xi Wang and Nikos Athanasiou and Bharat Lal Bhatnagar and Chun-Hao P. Huang and Kaichun Mo and Hao Chen and Xia Jia and Zerui Zhang and Liangxian Cui and Xiao Lin and Bingqiao Qian and Jie Xiao and Wenfei Yang and Hyeongjin Nam and Daniel Sungho Jung and Kihoon Kim and Kyoung Mu Lee and Otmar Hilliges and Gerard Pons-Moll(参考訳) 人間と物体の相互作用のモデル化は近年、新たな研究の方向性となっている。 しかし、人間と物体の相互作用を捉えることは、重い閉塞と複雑なダイナミクスのために非常に難しい作業であり、3次元の人間のポーズだけでなく、物体のポーズも理解する必要がある。 3d人間と物体の再構築は、コンピュータビジョンにおける2つの異なる研究分野である。 そこで我々は,RHOBINワークショップと連携して,人間と物体の相互作用を再構築する,最初のRHOBINチャレンジを提案した。 人間とオブジェクトのリコンストラクションの研究コミュニティとインタラクションモデリングを一緒に持って、技術について議論し、アイデアを交換することを目的としていた。 課題は,単眼型rgb画像からの3次元再構成の3つのトラックから成り,課題的なインタラクションシナリオへの対処に焦点をあてた。 私たちの挑戦は、300以上の応募を持つ100人以上の参加者を惹きつけ、研究コミュニティの幅広い関心を示している。 本稿では,課題の設定について述べ,各トラックの入賞方法についてより詳細に述べる。 重度咬合状態でもヒトの再建作業は成熟しており, 姿勢推定や関節再建は課題となっている。 相互作用モデリングへの関心が高まりつつあり、このレポートが有用な洞察を与え、今後の研究を促進することを願っている。 ワークショップのwebサイトは、https://rhobin-challenge.github.io/}{https://rhobin-challenge.github.io/}にある。

Modeling the interaction between humans and objects has been an emerging research direction in recent years. Capturing human-object interaction is however a very challenging task due to heavy occlusion and complex dynamics, which requires understanding not only 3D human pose, and object pose but also the interaction between them. Reconstruction of 3D humans and objects has been two separate research fields in computer vision for a long time. We hence proposed the first RHOBIN challenge: reconstruction of human-object interactions in conjunction with the RHOBIN workshop. It was aimed at bringing the research communities of human and object reconstruction as well as interaction modeling together to discuss techniques and exchange ideas. Our challenge consists of three tracks of 3D reconstruction from monocular RGB images with a focus on dealing with challenging interaction scenarios. Our challenge attracted more than 100 participants with more than 300 submissions, indicating the broad interest in the research communities. This paper describes the settings of our challenge and discusses the winning methods of each track in more detail. We observe that the human reconstruction task is becoming mature even under heavy occlusion settings while object pose estimation and joint reconstruction remain challenging tasks. With the growing interest in interaction modeling, we hope this report can provide useful insights and foster future research in this direction. Our workshop website can be found at \href{https://rhobin-challenge.github.io/}{https://rhobin-challenge.github.io/}.
翻訳日:2024-01-10 18:46:20 公開日:2024-01-07
# フラクタル幾何学の可能性とそれを符号化するcnns能力について

On The Potential of The Fractal Geometry and The CNNs Ability to Encode it ( http://arxiv.org/abs/2401.04141v1 )

ライセンス: Link先を確認
Julia El Zini, Bassel Musharrafieh and Mariette Awad(参考訳) フラクタル次元は、測定尺度でパターンがどのように変化するかを調べることによって、対象の複雑さの統計的指標を提供する。 いくつかの分類タスクでは有用であるが、フラクタル次元は深層学習アプリケーションでは未探索である。 本研究では,深層モデルによって学習される特徴を調査し,これらの深層ネットワークがフラクタル次元と同じくらい複雑でハイレベルな特徴をエンコードできるかどうかを検討する。 具体的には相関解析実験を行い,深層ネットワークではこれらの特徴をどの層にも抽出できないことを示した。 分析研究と人間による評価を組み合わせることで,フラクタル機能のみで動作するディープラーニングネットワークとモデルの違いについて検討する。 さらに,分類タスクにおいてオブジェクト構造が重要となるアプリケーションにおいて,フラクタル特徴の有効性を示す。 フラクタル特徴量に対する浅層ネットワークのトレーニングは,計算資源の削減を図りながら,生データで訓練した深層ネットワークと比較して,特定の場合においても優れた性能を実現することを実証的に示す。 フラクタルは分類の精度を平均で30%向上させたが、トレーニングに要する時間は最大84%削減された。 提案するフラクタル特徴の抽出に要する計算コストの複雑性解析を行い,その限界について検討した。

The fractal dimension provides a statistical index of object complexity by studying how the pattern changes with the measuring scale. Although useful in several classification tasks, the fractal dimension is under-explored in deep learning applications. In this work, we investigate the features that are learned by deep models and we study whether these deep networks are able to encode features as complex and high-level as the fractal dimensions. Specifically, we conduct a correlation analysis experiment to show that deep networks are not able to extract such a feature in none of their layers. We combine our analytical study with a human evaluation to investigate the differences between deep learning networks and models that operate on the fractal feature solely. Moreover, we show the effectiveness of fractal features in applications where the object structure is crucial for the classification task. We empirically show that training a shallow network on fractal features achieves performance comparable, even superior in specific cases, to that of deep networks trained on raw data while requiring less computational resources. Fractals improved the accuracy of the classification by 30% on average while requiring up to 84% less time to train. We couple our empirical study with a complexity analysis of the computational cost of extracting the proposed fractal features, and we study its limitation.
翻訳日:2024-01-10 18:45:58 公開日:2024-01-07
# CCNETS:不均衡データセットにおけるパターン認識強化のための新しい脳誘発アプローチ

CCNETS: A Novel Brain-Inspired Approach for Enhanced Pattern Recognition in Imbalanced Datasets ( http://arxiv.org/abs/2401.04139v1 )

ライセンス: Link先を確認
Hanbeot Park (1), Yunjeong Cho (2), Hoon-Hee Kim (3)(参考訳) 本研究では、パターン認識における不均衡データセットのデータ生成に挑戦するために、新しい生成モデルベースの分類器であるCCNETS(Causal Learning with Causal Cooperative Nets)を紹介する。 CCNETSは脳に似た情報処理をエミュレートするために独自に設計されており、Explainer、Producer、Reasonerの3つの主要コンポーネントから構成されている。 各コンポーネントは、高品質なデータセットの生成と分類性能の向上を支援する、特定の脳機能を模倣するように設計されている。 このモデルは特に、機械学習で不均衡なデータセットを扱うという、一般的で重要な課題に対処することに重点を置いている。 ccnetsの有効性は、通常の取引が不正取引(99.83%対0.17%)を大幅に上回る「詐欺データセット」に応用することで実証される。 従来の手法はこのような不均衡に苦しむことが多く、パフォーマンス指標が歪んだ。 しかし、ccnetsは、その性能指標で示されるように、より優れた分類能力を示す。 具体的には、0.7992のF1スコアを達成し、AutoencodersやMulti-layer Perceptrons(MLP)といった従来のモデルより優れている。 この性能は、CCNETSが通常のパターンと不正パターンをより正確に区別する能力を示している。 ccnetsの革新的な構造は生成モデルと分類モデルの一貫性を高め、生成モデルのみに依存するパターン認識の限界を克服するのに役立つ。 本研究は、CCNETSの多様なアプリケーション、特に品質データ生成とパターン認識が重要となる分野における可能性を強調する。 これは機械学習、特に不均衡なデータセットに有効である。 CCNETSはこれらのデータセットの現在の課題を克服し、脳にインスパイアされたアプローチで機械学習を進化させる。

This study introduces CCNETS (Causal Learning with Causal Cooperative Nets), a novel generative model-based classifier designed to tackle the challenge of generating data for imbalanced datasets in pattern recognition. CCNETS is uniquely crafted to emulate brain-like information processing and comprises three main components: Explainer, Producer, and Reasoner. Each component is designed to mimic specific brain functions, which aids in generating high-quality datasets and enhancing classification performance. The model is particularly focused on addressing the common and significant challenge of handling imbalanced datasets in machine learning. CCNETS's effectiveness is demonstrated through its application to a "fraud dataset," where normal transactions significantly outnumber fraudulent ones (99.83% vs. 0.17%). Traditional methods often struggle with such imbalances, leading to skewed performance metrics. However, CCNETS exhibits superior classification ability, as evidenced by its performance metrics. Specifically, it achieved an F1-score of 0.7992, outperforming traditional models like Autoencoders and Multi-layer Perceptrons (MLP) in the same context. This performance indicates CCNETS's proficiency in more accurately distinguishing between normal and fraudulent patterns. The innovative structure of CCNETS enhances the coherence between generative and classification models, helping to overcome the limitations of pattern recognition that rely solely on generative models. This study emphasizes CCNETS's potential in diverse applications, especially where quality data generation and pattern recognition are key. It proves effective in machine learning, particularly for imbalanced datasets. CCNETS overcomes current challenges in these datasets and advances machine learning with brain-inspired approaches.
翻訳日:2024-01-10 18:45:36 公開日:2024-01-07
# llmによる定性解析によるhci研究の地平線拡大

Expanding Horizons in HCI Research Through LLM-Driven Qualitative Analysis ( http://arxiv.org/abs/2401.04138v1 )

ライセンス: Link先を確認
Maya Grace Torii, Takahito Murakami, Yoichi Ochiai(参考訳) タイプライターでタイプされた論文を"送る"必要がある場合、研究はどのようになるでしょうか? 我々の生活と研究環境は進化し続けており、しばしば新しい方法論に関する議論の的となっている。 本稿では,Large Language Models (LLM) を用いたHCIにおける定性解析の新しいアプローチを導入することで,この変化を受け入れる。 定性データ解析にLLMを用いる手法を詳述し、SBARTコサイン類似度を用いた定量的なフレームワークを用いて性能評価を行う。 以上の結果から,LSMは従来の解析手法と一致しただけでなく,ユニークな知見も得られることが示唆された。 新たなデータセットとベンチマークを通じて,HCI研究におけるLLMの特性を探求し,この分野におけるさらなる探索と応用の可能性を提案する。

How would research be like if we still needed to "send" papers typed with a typewriter? Our life and research environment have continually evolved, often accompanied by controversial opinions about new methodologies. In this paper, we embrace this change by introducing a new approach to qualitative analysis in HCI using Large Language Models (LLMs). We detail a method that uses LLMs for qualitative data analysis and present a quantitative framework using SBART cosine similarity for performance evaluation. Our findings indicate that LLMs not only match the efficacy of traditional analysis methods but also offer unique insights. Through a novel dataset and benchmark, we explore LLMs' characteristics in HCI research, suggesting potential avenues for further exploration and application in the field.
翻訳日:2024-01-10 18:45:08 公開日:2024-01-07
# より強力な拡散モデル、より容易なバックドア:微調整パイプラインを調整せずに著作権侵害を誘発するデータ

The Stronger the Diffusion Model, the Easier the Backdoor: Data Poisoning to Induce Copyright Breaches Without Adjusting Finetuning Pipeline ( http://arxiv.org/abs/2401.04136v1 )

ライセンス: Link先を確認
Haonan Wang, Qianli Shen, Yao Tong, Yang Zhang, Kenji Kawaguchi(参考訳) 拡散モデルの商業化は、しばしば実際の画像と区別できない高品質な画像を生成する能力で有名であり、潜在的な著作権上の懸念をもたらす。 トレーニング中に著作権物質への不正アクセスを阻止し、DMが著作権画像を生成するのを防ぐ試みは試みられているが、これらのソリューションの有効性は検証されていない。 本研究では,テキスト・ツー・イメージ拡散モデルに対するバックドアデータ中毒攻撃(SilentBadDiffusion)を導入することで,DMの著作権保護に関連する脆弱性について検討する。 我々の攻撃方法は、拡散モデルのトレーニングや微調整プロセスへのアクセスや制御を必要とせず、単に汚染データをクリーンなトレーニングデータセットに挿入するだけである。 このデータは、マルチモーダルな大言語モデルとテキスト誘導画像塗装技術の強力な能力を活用して、プロンプトを備えた中毒画像からなる。 実験結果と解析により,本手法の有効性を確認した。 非copyright-infring stealthy poisoning dataのごく一部をクリーンデータセットに統合することで、特定のトリガープロンプトによってアクティベートされたときに、微調整された拡散モデルに著作権付きコンテンツを生成するように促すことができる。 これらの知見は、著作権保護戦略の潜在的な落とし穴を浮き彫りにしており、dmsの誤用に対する監視と予防措置の増加の必要性を強調している。

The commercialization of diffusion models, renowned for their ability to generate high-quality images that are often indistinguishable from real ones, brings forth potential copyright concerns. Although attempts have been made to impede unauthorized access to copyrighted material during training and to subsequently prevent DMs from generating copyrighted images, the effectiveness of these solutions remains unverified. This study explores the vulnerabilities associated with copyright protection in DMs by introducing a backdoor data poisoning attack (SilentBadDiffusion) against text-to-image diffusion models. Our attack method operates without requiring access to or control over the diffusion model's training or fine-tuning processes; it merely involves the insertion of poisoning data into the clean training dataset. This data, comprising poisoning images equipped with prompts, is generated by leveraging the powerful capabilities of multimodal large language models and text-guided image inpainting techniques. Our experimental results and analysis confirm the method's effectiveness. By integrating a minor portion of non-copyright-infringing stealthy poisoning data into the clean dataset-rendering it free from suspicion-we can prompt the finetuned diffusion models to produce copyrighted content when activated by specific trigger prompts. These findings underline potential pitfalls in the prevailing copyright protection strategies and underscore the necessity for increased scrutiny and preventative measures against the misuse of DMs.
翻訳日:2024-01-10 18:44:52 公開日:2024-01-07
# 量子サポートベクトルマシンの複雑さ

The complexity of quantum support vector machines ( http://arxiv.org/abs/2203.00031v2 )

ライセンス: Link先を確認
Gian Gentinetta, Arne Thomsen, David Sutter, Stefan Woerner(参考訳) 量子サポートベクターマシンは、カーネル関数を定義するために量子回路を用いる。 このアプローチは、特定のデータセットに対する既知の古典的アルゴリズムと比較して、証明可能な指数的スピードアップを提供する。 そのようなモデルのトレーニングは、原始的あるいは双対な定式化を通じて凸最適化問題を解決することに対応する。 量子力学の確率論的性質のため、トレーニングアルゴリズムは統計的不確実性の影響を受け、その複雑さに大きな影響を及ぼす。 双対問題は、データセットのサイズを表す$o(m^{4.67}/\varepsilon^2)$の量子回路評価で解くことができ、ここでは$m$は、理論上しか得られない正確な期待値による理想的な結果に比べて解の精度が$\varepsilon$である。 経験的動機づけにより、核化された原始問題は、ペガソスと呼ばれる既知の古典的アルゴリズムの一般化を用いて、$o(\min \{ m^2/\varepsilon^6, \, 1/\varepsilon^{10} \})$評価で代替的に解くことができると証明する。 経験的な結果と合わせて、これらの解析的複雑さは本質的に密であることを示す。 さらに,量子サポートベクトルマシンの変分近似について検討し,そのヒューリスティックトレーニングが実験においてかなり優れたスケーリングを実現することを示す。

Quantum support vector machines employ quantum circuits to define the kernel function. It has been shown that this approach offers a provable exponential speedup compared to any known classical algorithm for certain data sets. The training of such models corresponds to solving a convex optimization problem either via its primal or dual formulation. Due to the probabilistic nature of quantum mechanics, the training algorithms are affected by statistical uncertainty, which has a major impact on their complexity. We show that the dual problem can be solved in $O(M^{4.67}/\varepsilon^2)$ quantum circuit evaluations, where $M$ denotes the size of the data set and $\varepsilon$ the solution accuracy compared to the ideal result from exact expectation values, which is only obtainable in theory. We prove under an empirically motivated assumption that the kernelized primal problem can alternatively be solved in $O(\min \{ M^2/\varepsilon^6, \, 1/\varepsilon^{10} \})$ evaluations by employing a generalization of a known classical algorithm called Pegasos. Accompanying empirical results demonstrate these analytical complexities to be essentially tight. In addition, we investigate a variational approximation to quantum support vector machines and show that their heuristic training achieves considerably better scaling in our experiments.
翻訳日:2024-01-10 00:59:38 公開日:2024-01-07
# 不正確な接地ラベルを用いた評価のための論理評価式とその原理

Logical Assessment Formula and Its Principles for Evaluations with Inaccurate Ground-Truth Labels ( http://arxiv.org/abs/2110.11567v4 )

ライセンス: Link先を確認
Yongquan Yang(参考訳) 精度の高い基底構造ラベル(AGTL)を用いた評価は、人工知能応用の予測モデルを評価するために広く用いられている。 しかし, 病理組織学, スライド画像解析などの特定の分野では, agtlsの正確な定義が困難であったり, 存在すらしなかったりする状況が一般的である。 この状況を緩和するために,論理評価式 (laf) を提案し,不確実性下での論理的推論を通じて,不正確な基底ラベル (iagtls) を用いた評価の原理を明らかにする。 LAFの原理から, LAFの実践性について概説する。 1) IAGTL を用いた評価には LAF を適用でき,AGTL を用いた評価の通常の戦略のように合理的に行うことができる。 2) IAGTL を用いた評価には LAF が適用可能であり,AGTL を用いた評価の通常の戦略のようには機能しない。

Evaluations with accurate ground-truth labels (AGTLs) have been widely employed to assess predictive models for artificial intelligence applications. However, in some specific fields, such as medical histopathology whole slide image analysis, it is quite usual the situation that AGTLs are difficult to be precisely defined or even do not exist. To alleviate this situation, we propose logical assessment formula (LAF) and reveal its principles for evaluations with inaccurate ground-truth labels (IAGTLs) via logical reasoning under uncertainty. From the revealed principles of LAF, we summarize the practicability of LAF: 1) LAF can be applied for evaluations with IAGTLs on a more difficult task, able to act like usual strategies for evaluations with AGTLs reasonably; 2) LAF can be applied for evaluations with IAGTLs from the logical perspective on an easier task, unable to act like usual strategies for evaluations with AGTLs confidently.
翻訳日:2024-01-10 00:57:58 公開日:2024-01-07
# 非パラメトリック構造関数と弾性に対する適応推定と一様信頼バンド

Adaptive Estimation and Uniform Confidence Bands for Nonparametric Structural Functions and Elasticities ( http://arxiv.org/abs/2107.11869v3 )

ライセンス: Link先を確認
Xiaohong Chen, Timothy Christensen, Sid Kankanala(参考訳) 楽器変数を用いた非パラメトリックモデルにおいて、最適推定と推定のための2つのデータ駆動手法を導入する。 1つは、シーブ2段最小二乗推定器の人気のあるクラスに対するシーブ次元のデータ駆動選択である。 この選択で実装されると、構造関数 $h_0$ とその導関数(弾性など)は、sup-norm において可能な限り速い速度(ミニマックス)で収束する。 2つ目は、一様信頼バンド(UCB)を$h_0$で構築することである。 UCBは、データ生成プロセスの一般的なクラスと契約を、おそらく対数係数まで、ミニマックスレートでカバーすることを保証します。 したがって、UCBは通常のアンダースムーシングのアプローチに基づいて、UCBよりも漸近的に効率的である。 適用例として、国際貿易の独占的競争モデルにおいて、企業輸出の集中的なマージンの弾力性を推定する。 シミュレーションは経験的校正設計における手順の良好な性能を示す。 以上の結果から,非観測型不均質性分布の共通パラメータ化に対するエビデンスが得られた。

We introduce two data-driven procedures for optimal estimation and inference in nonparametric models using instrumental variables. The first is a data-driven choice of sieve dimension for a popular class of sieve two-stage least squares estimators. When implemented with this choice, estimators of both the structural function $h_0$ and its derivatives (such as elasticities) converge at the fastest possible (i.e., minimax) rates in sup-norm. The second is for constructing uniform confidence bands (UCBs) for $h_0$ and its derivatives. Our UCBs guarantee coverage over a generic class of data-generating processes and contract at the minimax rate, possibly up to a logarithmic factor. As such, our UCBs are asymptotically more efficient than UCBs based on the usual approach of undersmoothing. As an application, we estimate the elasticity of the intensive margin of firm exports in a monopolistic competition model of international trade. Simulations illustrate the good performance of our procedures in empirically calibrated designs. Our results provide evidence against common parameterizations of the distribution of unobserved firm heterogeneity.
翻訳日:2024-01-10 00:57:04 公開日:2024-01-07
# 自然言語処理におけるToken-Modification Adversarial Attacks: A Survey

Token-Modification Adversarial Attacks for Natural Language Processing: A Survey ( http://arxiv.org/abs/2103.00676v3 )

ライセンス: Link先を確認
Tom Roth, Yansong Gao, Alsharif Abuadbba, Surya Nepal, Wei Liu(参考訳) 多くの敵攻撃は自然言語処理システムをターゲットにしており、そのほとんどは文書の個々のトークンを変更することで成功している。 これらの攻撃には明らかな特異性があるが、基本的には、ゴール関数、許容可能な変換、検索方法、制約の4つのコンポーネントの異なる構成である。 本調査では,攻撃に依存しないフレームワークを用いて,各文献のさまざまなコンポーネントを体系的に提示し,コンポーネントの比較と分類を容易にする。 本研究は,新入生の現場への包括的ガイドとしての役割を担い,個別の攻撃成分の精製を目標とする研究を刺激することを目的としている。

Many adversarial attacks target natural language processing systems, most of which succeed through modifying the individual tokens of a document. Despite the apparent uniqueness of each of these attacks, fundamentally they are simply a distinct configuration of four components: a goal function, allowable transformations, a search method, and constraints. In this survey, we systematically present the different components used throughout the literature, using an attack-independent framework which allows for easy comparison and categorisation of components. Our work aims to serve as a comprehensive guide for newcomers to the field and to spark targeted research into refining the individual attack components.
翻訳日:2024-01-10 00:56:48 公開日:2024-01-07
# ニューラルネットワークのプルーニングに複雑度は必要か? グローバル・マグニチュード・プルーニングの事例研究

Is Complexity Required for Neural Network Pruning? A Case Study on Global Magnitude Pruning ( http://arxiv.org/abs/2209.14624v3 )

ライセンス: Link先を確認
Manas Gupta, Efe Camci, Vishandi Rudy Keneta, Abhishek Vaidyanathan, Ritwik Kanodia, Chuan-Sheng Foo, Wu Min and Lin Jie(参考訳) ニューラルネットワークのプルーニングは、最近のニューラルネットワークから大量の重みを、精度を損なうことなく安全に除去できることが示されてから、この10年間で人気が高まっている。 それ以来、多くのプルーニング手法が提案され、それぞれが先行技術よりも優れていると主張するが、より複雑なプルーニング手法のコストがかかる。 これらの手法には、重要なスコアの活用、バックプロパゲーションによるフィードバック、ヒューリスティックスに基づくプルーニングルールなどが含まれる。 本研究は, より優れた刈り取り結果を得るためには, 複雑さの導入というこのパターンが本当に必要かどうかを問うものである。 我々は、これらのSOTA手法を、単純なプルーニングベースライン、すなわちGlobal Magnitude Pruning (Global MP)に対してベンチマークする。 驚いたことに、バニラグローバルMPはSOTA技術に対して非常に優れている。 スパーシティ・正確なトレードオフを考えると、グローバルmpはスパーシティ比で全てのsoma技術よりもパフォーマンスが良い。 フラップ精度トレードオフを考えると、いくつかのsota技術はグローバルmpを低いスパース率で上回っているが、グローバルmpは高いスパース率で良好に動作し始め、非常に高いスパース率で非常によく機能する。 さらに,多くのプルーニングアルゴリズムが高いスパース率,すなわち層分割率で動作しているという共通の問題は,グローバルmpで容易に修正できることがわかった。 ネットワークにおける層崩壊の理由と,その軽減方法について,Minimum Thresholdと呼ばれる手法を用いて検討する。 本稿では,様々なモデル (WRN-28-8, ResNet-32, ResNet-50, MobileNet-V1, FastGRNN) と複数のデータセット (CIFAR-10, ImageNet, HAR-2) について紹介する。 コードはhttps://github.com/manasgupta-1/GlobalMPで入手できる。

Pruning neural networks has become popular in the last decade when it was shown that a large number of weights can be safely removed from modern neural networks without compromising accuracy. Numerous pruning methods have been proposed since, each claiming to be better than prior art, however, at the cost of increasingly complex pruning methodologies. These methodologies include utilizing importance scores, getting feedback through back-propagation or having heuristics-based pruning rules amongst others. In this work, we question whether this pattern of introducing complexity is really necessary to achieve better pruning results. We benchmark these SOTA techniques against a simple pruning baseline, namely, Global Magnitude Pruning (Global MP), that ranks weights in order of their magnitudes and prunes the smallest ones. Surprisingly, we find that vanilla Global MP performs very well against the SOTA techniques. When considering sparsity-accuracy trade-off, Global MP performs better than all SOTA techniques at all sparsity ratios. When considering FLOPs-accuracy trade-off, some SOTA techniques outperform Global MP at lower sparsity ratios, however, Global MP starts performing well at high sparsity ratios and performs very well at extremely high sparsity ratios. Moreover, we find that a common issue that many pruning algorithms run into at high sparsity rates, namely, layer-collapse, can be easily fixed in Global MP. We explore why layer collapse occurs in networks and how it can be mitigated in Global MP by utilizing a technique called Minimum Threshold. We showcase the above findings on various models (WRN-28-8, ResNet-32, ResNet-50, MobileNet-V1 and FastGRNN) and multiple datasets (CIFAR-10, ImageNet and HAR-2). Code is available at https://github.com/manasgupta-1/GlobalMP.
翻訳日:2024-01-10 00:51:53 公開日:2024-01-07
# 一貫性のグラディエントに基づく説明の強化による視覚的接地の改善

Improving Visual Grounding by Encouraging Consistent Gradient-based Explanations ( http://arxiv.org/abs/2206.15462v4 )

ライセンス: Link先を確認
Ziyan Yang, Kushal Kafle, Franck Dernoncourt, Vicente Ordonez(参考訳) そこで本研究では,人間が比較的小さな接地データセットに対して提供した領域レベルのアノテーションと一致するように,共同視覚言語モデルの調整のためのマージンベースロスを提案する。 我々は、この目的を注意マスク一貫性(AMC)と呼び、対象検出器の出力を評価するために視覚言語モデルを使用する従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示した。 特に、標準視覚言語モデリングの目的の上にamcで訓練されたモデルは、flickr30kの視覚接地ベンチマークにおいて、同じレベルの監視下で訓練された最良の以前のモデルと比較して絶対的な5.38%の精度で86.49%の最先端精度が得られる。 また,RefCOCO+の簡便なテストでは80.34%,難解なスプリットでは64.55%の精度が得られた。 amcは有効であり、実装が容易であり、視覚言語モデルに採用できるので一般的には、任意のタイプの領域アノテーションを使うことができる。

We propose a margin-based loss for tuning joint vision-language models so that their gradient-based explanations are consistent with region-level annotations provided by humans for relatively smaller grounding datasets. We refer to this objective as Attention Mask Consistency (AMC) and demonstrate that it produces superior visual grounding results than previous methods that rely on using vision-language models to score the outputs of object detectors. Particularly, a model trained with AMC on top of standard vision-language modeling objectives obtains a state-of-the-art accuracy of 86.49% in the Flickr30k visual grounding benchmark, an absolute improvement of 5.38% when compared to the best previous model trained under the same level of supervision. Our approach also performs exceedingly well on established benchmarks for referring expression comprehension where it obtains 80.34% accuracy in the easy test of RefCOCO+, and 64.55% in the difficult split. AMC is effective, easy to implement, and is general as it can be adopted by any vision-language model, and can use any type of region annotations.
翻訳日:2024-01-10 00:48:10 公開日:2024-01-07
# 特徴帰属に対する不可能定理

Impossibility Theorems for Feature Attribution ( http://arxiv.org/abs/2212.11870v3 )

ライセンス: Link先を確認
Blair Bilodeau, Natasha Jaques, Pang Wei Koh, Been Kim(参考訳) 妥当な説明を生成できる解釈可能性手法の海にもかかわらず、この分野はそのような手法の多くの失敗事例を経験的に見てきた。 これらの結果を踏まえて、実践者がこれらの手法をどのように利用し、それらを原則的に選択するかは定かではない。 本稿では、中程度にリッチなモデルクラス(ニューラルネットワークにより容易に満足できる)において、完全で線形な特徴属性(例えば、積分勾配とSHAP)は、モデル振る舞いを推測するランダムな推測において確実に改善できないことを示す。 本研究は, 局所モデル行動の特徴付け, 突発的特徴の同定, アルゴリズム的リコースなど, 一般的なエンドタスクに適用する。 このようなエンドタスクが定義されれば、繰り返しモデル評価の単純かつ直接的なアプローチが、他の多くの複雑な機能帰属メソッドを上回ることができるのです。

Despite a sea of interpretability methods that can produce plausible explanations, the field has also empirically seen many failure cases of such methods. In light of these results, it remains unclear for practitioners how to use these methods and choose between them in a principled way. In this paper, we show that for moderately rich model classes (easily satisfied by neural networks), any feature attribution method that is complete and linear -- for example, Integrated Gradients and SHAP -- can provably fail to improve on random guessing for inferring model behaviour. Our results apply to common end-tasks such as characterizing local model behaviour, identifying spurious features, and algorithmic recourse. One takeaway from our work is the importance of concretely defining end-tasks: once such an end-task is defined, a simple and direct approach of repeated model evaluations can outperform many other complex feature attribution methods.
翻訳日:2024-01-10 00:38:43 公開日:2024-01-07
# Thales: DNNアクセラレータのアーキテクチャ脆弱性係数の定式化と推定

Thales: Formulating and Estimating Architectural Vulnerability Factors for DNN Accelerators ( http://arxiv.org/abs/2212.02649v2 )

ライセンス: Link先を確認
Abhishek Tyagi and Yiming Gan and Shaoshan Liu and Bo Yu and Paul Whatmough and Yuhao Zhu(参考訳) Deep Neural Networks(DNN)は、自律運転や生体認証など、安全でプライバシーに敏感なアプリケーションにますますデプロイされているため、DNNのフォールトトレランスの性質を理解することが重要である。 先行研究は主に、デバイスの障害頻度を定量化する、時間内障害率(fit)やサイレントデータ破損率(sdc)などのメトリクスに焦点を当てている。 そこで本論文では,過渡的エラーが発生した場合のネットワークの振る舞いを示す,過渡的エラーが発生した場合のdnn精度の定量化に注目する。 このメトリックレジリエンス精度(ra:metric resiliency accuracy)と呼ぶ。 ハードウェア過渡的障害下でソフトウェア変数(モデル重み/アクティベーション)が同じ故障確率を持つと誤って仮定しているため、既存のra定式化は基本的に不正確である。 本稿では, 過渡的故障下でのDNN変数の故障確率を推定し, ハードウェアによる正しいRA推定を行うアルゴリズムを提案する。 RA推定を高速化するため,モンテカルロ積分問題としてRA計算を再構成し,DNN固有ヒューリスティックによる重要サンプリングを用いて解く。 軽量RA推定法を用いて, 過渡断層が現在のDNNレジリエンスツールの推定よりもはるかに高い精度の劣化をもたらすことを示す。 ra推定ツールは,ネットワークアーキテクチャ検索フレームワークと統合することにより,レジリエントなdnnの設計にどのように役立つかを示す。

As Deep Neural Networks (DNNs) are increasingly deployed in safety critical and privacy sensitive applications such as autonomous driving and biometric authentication, it is critical to understand the fault-tolerance nature of DNNs. Prior work primarily focuses on metrics such as Failures In Time (FIT) rate and the Silent Data Corruption (SDC) rate, which quantify how often a device fails. Instead, this paper focuses on quantifying the DNN accuracy given that a transient error has occurred, which tells us how well a network behaves when a transient error occurs. We call this metric Resiliency Accuracy (RA). We show that existing RA formulation is fundamentally inaccurate, because it incorrectly assumes that software variables (model weights/activations) have equal faulty probability under hardware transient faults. We present an algorithm that captures the faulty probabilities of DNN variables under transient faults and, thus, provides correct RA estimations validated by hardware. To accelerate RA estimation, we reformulate RA calculation as a Monte Carlo integration problem, and solve it using importance sampling driven by DNN specific heuristics. Using our lightweight RA estimation method, we show that transient faults lead to far greater accuracy degradation than what todays DNN resiliency tools estimate. We show how our RA estimation tool can help design more resilient DNNs by integrating it with a Network Architecture Search framework.
翻訳日:2024-01-10 00:38:04 公開日:2024-01-07
# 電子カルテによる治療割り当ての因果的公平性評価

Causal Fairness Assessment of Treatment Allocation with Electronic Health Records ( http://arxiv.org/abs/2211.11183v2 )

ライセンス: Link先を確認
Linying Zhang, Lauren R. Richter, Yixin Wang, Anna Ostropolets, Noemie Elhadad, David M. Blei, George Hripcsak(参考訳) 医療は、治療格差の持続的な問題に対処し続けており、臨床における治療の公平な配分に関する懸念を引き起こしている。 意思決定プロセスにおける公平性を評価するために様々な公正度指標が登場したが、因果関係に基づく公平性の概念に注目が集まっている。 しかし、電子健康記録(ehr)データを用いた臨床意思決定の公平性評価における因果的公平性概念の適用は未検討領域である。 本研究は,電子カルテデータを用いた治療アロケーションの因果フェアネス評価における方法論的ギャップに対処することを目的とする。 臨床意思決定における公平性を評価するための因果フェアネスアルゴリズムを提案する。 本アルゴリズムは, 患者集団の多様性を考慮し, 治療の恩恵を受ける可能性が同じ患者を条件づけることで, 治療割り当ての不公平さを識別する。 本枠組みは, EHRデータベースから得られた冠動脈疾患の患者コホートに応用し, 治療決定の公平性を評価する。 また,健康の社会的決定要因が治療割り当ての因果的公平性評価に及ぼす影響について検討した。

Healthcare continues to grapple with the persistent issue of treatment disparities, sparking concerns regarding the equitable allocation of treatments in clinical practice. While various fairness metrics have emerged to assess fairness in decision-making processes, a growing focus has been on causality-based fairness concepts due to their capacity to mitigate confounding effects and reason about bias. However, the application of causal fairness notions in evaluating the fairness of clinical decision-making with electronic health record (EHR) data remains an understudied domain. This study aims to address the methodological gap in assessing causal fairness of treatment allocation with electronic health records data. We propose a causal fairness algorithm to assess fairness in clinical decision-making. Our algorithm accounts for the heterogeneity of patient populations and identifies potential unfairness in treatment allocation by conditioning on patients who have the same likelihood to benefit from the treatment. We apply this framework to a patient cohort with coronary artery disease derived from an EHR database to evaluate the fairness of treatment decisions. In addition, we investigate the impact of social determinants of health on the assessment of causal fairness of treatment allocation.
翻訳日:2024-01-10 00:36:54 公開日:2024-01-07
# lit-former:ct画像のデノイジングとデブラリングのための面内トランスフォーマーと面内トランスフォーマーのリンク

LIT-Former: Linking In-plane and Through-plane Transformers for Simultaneous CT Image Denoising and Deblurring ( http://arxiv.org/abs/2302.10630v2 )

ライセンス: Link先を確認
Zhihao Chen, Chuang Niu, Qi Gao, Ge Wang, Hongming Shan(参考訳) 本稿では3次元低線量CT像について検討する。 この文脈で様々な深層学習法が開発されたが、通常は2d画像に焦点を合わせ、低用量化と高分解能化のためにデノイジングを行う。 従来,高画質3次元CT画像の低放射線化と高速撮像速度の確保が重要であった,平面内脱色と平面内脱色を同時に行う作業はほとんど行われていなかった。 このタスクでは、エンドツーエンドの3Dネットワークを直接トレーニングする簡単な方法がある。 しかし、多くのトレーニングデータと高価な計算コストを必要とする。 本稿では、平面内および平面内サブタスクを3次元CT画像に効率的に相乗し、畳み込みと変圧器の両ネットワークの利点を享受するLIT-Formerと呼ばれる、平面内および面内および面内変換器を同時に接続することを提案する。 lit-formerには2つの新しい設計がある: 効率的なマルチヘッドセルフアテンションモジュール(emsm)と効率的な畳み込みフィードフォワードネットワーク(ecfn)。 まず、eMSMは平面内2次元自己アテンションと平面内1次元自己アテンションを統合し、トランスフォーマーネットワークのコアユニットである3次元自己アテンションのグローバルな相互作用を効率的に捉える。 第二に、eCFNは2D畳み込みと1D畳み込みを統合し、同じ方法で3D畳み込みの局所情報を抽出する。 その結果,提案するlit-formerは,これら2つのサブタスクを合成し,計算量を大幅に削減し,高速収束を実現する。 シミュレーションおよび臨床データセットの大規模な実験結果は、最先端モデルよりも優れた性能を示す。 ソースコードはhttps://github.com/hao1635/lit-formerで入手できる。

This paper studies 3D low-dose computed tomography (CT) imaging. Although various deep learning methods were developed in this context, typically they focus on 2D images and perform denoising due to low-dose and deblurring for super-resolution separately. Up to date, little work was done for simultaneous in-plane denoising and through-plane deblurring, which is important to obtain high-quality 3D CT images with lower radiation and faster imaging speed. For this task, a straightforward method is to directly train an end-to-end 3D network. However, it demands much more training data and expensive computational costs. Here, we propose to link in-plane and through-plane transformers for simultaneous in-plane denoising and through-plane deblurring, termed as LIT-Former, which can efficiently synergize in-plane and through-plane sub-tasks for 3D CT imaging and enjoy the advantages of both convolution and transformer networks. LIT-Former has two novel designs: efficient multi-head self-attention modules (eMSM) and efficient convolutional feedforward networks (eCFN). First, eMSM integrates in-plane 2D self-attention and through-plane 1D self-attention to efficiently capture global interactions of 3D self-attention, the core unit of transformer networks. Second, eCFN integrates 2D convolution and 1D convolution to extract local information of 3D convolution in the same fashion. As a result, the proposed LIT-Former synergize these two subtasks, significantly reducing the computational complexity as compared to 3D counterparts and enabling rapid convergence. Extensive experimental results on simulated and clinical datasets demonstrate superior performance over state-of-the-art models. The source code is made available at https://github.com/hao1635/LIT-Former.
翻訳日:2024-01-10 00:28:15 公開日:2024-01-07
# ヘッカー思想

Heckerthoughts ( http://arxiv.org/abs/2302.05449v5 )

ライセンス: Link先を確認
David Heckerman(参考訳) この原稿は、スタンフォードとMicrosoft Researchでの私の仕事に関する技術的な回想録です。 機械学習と人工知能の中心となる基本的な概念、これらの概念の応用、そしてそれらの創造の背後にある物語が含まれている。

This manuscript is technical memoir about my work at Stanford and Microsoft Research. Included are fundamental concepts central to machine learning and artificial intelligence, applications of these concepts, and stories behind their creation.
翻訳日:2024-01-10 00:26:51 公開日:2024-01-07
# 制約付きオンライン2段階確率最適化:逆学習による近似アルゴリズム

Constrained Online Two-stage Stochastic Optimization: Near Optimal Algorithms via Adversarial Learning ( http://arxiv.org/abs/2302.00997v4 )

ライセンス: Link先を確認
Jiashuo Jiang(参考訳) 有限地平線上の長期制約付きオンライン2段階確率最適化をT$周期で検討する。 各期間において、第一段階のアクションをとり、モデルパラメータの実現を観察し、第一段階の決定とモデルパラメータの両方に依存する実行可能セットから第二段階のアクションを取る。 我々は,長期平均2段階決定が集合に属することを保証しながら,累積目標値の最小化を目指す。 対戦型学習アルゴリズムからオンライン二段階問題のオンラインアルゴリズムを開発する。 また、我々のアルゴリズムカムの後悔の限界は、組込み逆学習アルゴリズムの後悔の限界に還元される。 フレームワークに基づいて、さまざまな設定で新しい結果を得る。 それぞれの周期におけるモデルパラメータが同じ分布から引き出されるとき、特別な場合において以前の境界を改善するために \textit{state-of-art} $O(\sqrt{T})$ regret を導出する。 このアルゴリズムはモデルパラメータ実現の逆破壊にも頑健である。 モデルパラメータが未知の非定常分布から引き出され、その分布の機械学習予測が与えられたとき、我々はこのフレームワークから新たなアルゴリズムを開発し、後悔する$o(w_t+\sqrt{t})$、ここで$w_t$は機械学習予測の完全な不正確性を測定する。

We consider an online two-stage stochastic optimization with long-term constraints over a finite horizon of $T$ periods. At each period, we take the first-stage action, observe a model parameter realization and then take the second-stage action from a feasible set that depends both on the first-stage decision and the model parameter. We aim to minimize the cumulative objective value while guaranteeing that the long-term average second-stage decision belongs to a set. We develop online algorithms for the online two-stage problem from adversarial learning algorithms. Also, the regret bound of our algorithm cam be reduced to the regret bound of embedded adversarial learning algorithms. Based on our framework, we obtain new results under various settings. When the model parameter at each period is drawn from identical distributions, we derive \textit{state-of-art} $O(\sqrt{T})$ regret that improves previous bounds under special cases. Our algorithm is also robust to adversarial corruptions of model parameter realizations. When the model parameters are drawn from unknown non-stationary distributions and we are given machine-learned predictions of the distributions, we develop a new algorithm from our framework with a regret $O(W_T+\sqrt{T})$, where $W_T$ measures the total inaccuracy of the machine-learned predictions.
翻訳日:2024-01-10 00:25:41 公開日:2024-01-07
# グラフコントラスト学習における親和性不確実性に基づくハードネガティブマイニング

Affinity Uncertainty-based Hard Negative Mining in Graph Contrastive Learning ( http://arxiv.org/abs/2301.13340v2 )

ライセンス: Link先を確認
Chaoxi Niu, Guansong Pang, Ling Chen(参考訳) 強い負のマイニングは、グラフCL(GCL)を含む多様なデータ型に対する自己教師付きコントラスト学習(CL)の強化に有効である。 既存のハードネスを意識したCLメソッドは、通常、アンカーインスタンスと最もよく似た負のインスタンスをハードネガティブとして扱い、特に画像データにおいてCLのパフォーマンスを改善するのに役立ちます。 しかし、このアプローチはしばしばハードネガティブを特定することに失敗するが、グラフデータに多くの偽陰性をもたらす。 これは主に、学習されたグラフ表現が、グラフデータの過度な表現や/または非独立で同一に分布する(非i.d.)問題のために十分に識別できないためである。 本稿では,集合的親和性情報(すなわち,負のインスタンスとアンカーのインスタンスの間の2組のペアワイズ親和性)に基づく識別モデルを構築し,gclの強負をマイニングする新しいアプローチを提案する。 特に,本提案手法は,各負のインスタンスとアンカーインスタンスとの親和性について,識別モデルの信頼性/不確かさを評価し,アンカーインスタンスに対してその硬度重みを決定する。 この不確実性情報は、重み付け項を介して既存のGCL損失関数に組み込まれ、性能が向上する。 拡張gclは理論的に、得られたgcl損失は三重項損失と同値であり、適応マージンは各負のインスタンスの学習された不確かさに指数関数的に比例する。 10のグラフデータセットに関する大規模な実験は、我々のアプローチが下記のとおりであることを示している。 1) グラフ分類タスクとノード分類タスクの両方において,SOTA(State-of-the-art)GCLメソッドを一貫して拡張する。 2) 敵攻撃に対する堅牢性は著しく向上した。 コードはhttps://github.com/mala-lab/AUGCLで入手できる。

Hard negative mining has shown effective in enhancing self-supervised contrastive learning (CL) on diverse data types, including graph CL (GCL). The existing hardness-aware CL methods typically treat negative instances that are most similar to the anchor instance as hard negatives, which helps improve the CL performance, especially on image data. However, this approach often fails to identify the hard negatives but leads to many false negatives on graph data. This is mainly due to that the learned graph representations are not sufficiently discriminative due to oversmooth representations and/or non-independent and identically distributed (non-i.i.d.) issues in graph data. To tackle this problem, this article proposes a novel approach that builds a discriminative model on collective affinity information (i.e., two sets of pairwise affinities between the negative instances and the anchor instance) to mine hard negatives in GCL. In particular, the proposed approach evaluates how confident/uncertain the discriminative model is about the affinity of each negative instance to an anchor instance to determine its hardness weight relative to the anchor instance. This uncertainty information is then incorporated into the existing GCL loss functions via a weighting term to enhance their performance. The enhanced GCL is theoretically grounded that the resulting GCL loss is equivalent to a triplet loss with an adaptive margin being exponentially proportional to the learned uncertainty of each negative instance. Extensive experiments on ten graph datasets show that our approach does the following: 1) consistently enhances different state-of-the-art (SOTA) GCL methods in both graph and node classification tasks and 2) significantly improves their robustness against adversarial attacks. Code is available at https://github.com/mala-lab/AUGCL.
翻訳日:2024-01-10 00:24:53 公開日:2024-01-07
# LiDARセマンティックセグメンテーションモデルのロバスト性ベンチマーク

Benchmarking the Robustness of LiDAR Semantic Segmentation Models ( http://arxiv.org/abs/2301.00970v3 )

ライセンス: Link先を確認
Xu Yan, Chaoda Zheng, Ying Xue, Zhen Li, Shuguang Cui, Dengxin Dai(参考訳) 自律運転のような安全クリティカルなアプリケーションにLiDARセマンティックセグメンテーションモデルを使用する場合、広範囲なLiDARの腐敗に関して、その堅牢性を理解し改善することが不可欠である。 本稿では,LiDARセマンティックセグメンテーションモデルのロバスト性を,様々な汚職の下で包括的に解析することを目的とする。 現状のアプローチのロバスト性や一般化性を厳格に評価するために,SematicKITTI-Cと呼ばれる新しいベンチマークを提案し,悪天候,計測ノイズ,デバイス間差といった3つのグループで16のドメイン外LiDARの破損を特徴とする。 次に,11のLiDARセマンティックセグメンテーションモデル,特に異なる入力表現(点雲,ボクセル,投影画像など),ネットワークアーキテクチャ,トレーニングスキームを体系的に検討する。 この研究を通して 2つの洞察を得ました 1) 入力表現がロバスト性において重要な役割を果たすことがわかった。 特に、特定の腐敗下では、異なる表現が様々な振る舞いをする。 2)LiDARセマンティックセグメンテーションの最先端手法はクリーンなデータに対して有望な結果をもたらすが,ノイズの多いデータを扱う場合のロバスト性は低い。 最後に, 上記の観測結果に基づいて, 単純かつ効果的な修正によりロバスト性を大幅に向上させるロバストLiDARセグメンテーションモデル (RLSeg) を設計する。 当社のベンチマーク、包括的な分析、観察は、安全クリティカルなアプリケーションのための堅牢なlidarセマンティクスセグメンテーションに関する将来の研究を促進することを約束しています。

When using LiDAR semantic segmentation models for safety-critical applications such as autonomous driving, it is essential to understand and improve their robustness with respect to a large range of LiDAR corruptions. In this paper, we aim to comprehensively analyze the robustness of LiDAR semantic segmentation models under various corruptions. To rigorously evaluate the robustness and generalizability of current approaches, we propose a new benchmark called SemanticKITTI-C, which features 16 out-of-domain LiDAR corruptions in three groups, namely adverse weather, measurement noise and cross-device discrepancy. Then, we systematically investigate 11 LiDAR semantic segmentation models, especially spanning different input representations (e.g., point clouds, voxels, projected images, and etc.), network architectures and training schemes. Through this study, we obtain two insights: 1) We find out that the input representation plays a crucial role in robustness. Specifically, under specific corruptions, different representations perform variously. 2) Although state-of-the-art methods on LiDAR semantic segmentation achieve promising results on clean data, they are less robust when dealing with noisy data. Finally, based on the above observations, we design a robust LiDAR segmentation model (RLSeg) which greatly boosts the robustness with simple but effective modifications. It is promising that our benchmark, comprehensive analysis, and observations can boost future research in robust LiDAR semantic segmentation for safety-critical applications.
翻訳日:2024-01-10 00:22:25 公開日:2024-01-07
# ニューラルネットワークによるポントリャーギン最適制御

Pontryagin Optimal Control via Neural Networks ( http://arxiv.org/abs/2212.14566v2 )

ライセンス: Link先を確認
Chengyang Gu, Hui Xiong and Yize Chen(参考訳) 現実の最適制御問題の解決は難しい作業であり、複雑で高次元のシステムダイナミクスは意思決定者には明らかにされない。 したがって、最適制御動作を数値的に見つけることは困難である。 このようなモデリングと計算の課題に対処するため,本論文では,ニューラルネットワークとpontryaginの最大原理(pmp)を統合し,nn-pmp-gradientのサンプル効率的なフレームワークを提案する。 結果として生じるコントローラは未知の複雑な力学を持つシステムに実装することができる。 提案手法は,ニューラルネットワークによってパラメータ化される精度の高いサロゲートモデルを利用するだけでなく,pmp条件による最適動作シーケンスとともに最適条件を効率的に回復する。 線形二次レギュレータの数値シミュレーション,グリッド接続型損失電池のエネルギー仲裁,単一振り子制御,および2つのMuJoCo移動タスクにより,提案したNN-PMP-Gradientは最適解を求める汎用的で汎用的な計算ツールであることを示す。 また, モデルフリーおよびモデルベース強化学習(RL)アルゴリズムと比較して, NN-PMP-Gradientは, 制御目的の観点から高いサンプル効率と性能を実現する。

Solving real-world optimal control problems are challenging tasks, as the complex, high-dimensional system dynamics are usually unrevealed to the decision maker. It is thus hard to find the optimal control actions numerically. To deal with such modeling and computation challenges, in this paper, we integrate Neural Networks with the Pontryagin's Maximum Principle (PMP), and propose a sample efficient framework NN-PMP-Gradient. The resulting controller can be implemented for systems with unknown and complex dynamics. By taking an iterative approach, the proposed framework not only utilizes the accurate surrogate models parameterized by neural networks, it also efficiently recovers the optimality conditions along with the optimal action sequences via PMP conditions. Numerical simulations on Linear Quadratic Regulator, energy arbitrage of grid-connected lossy battery, control of single pendulum, and two MuJoCo locomotion tasks demonstrate our proposed NN-PMP-Gradient is a general and versatile computation tool for finding optimal solutions. And compared with the widely applied model-free and model-based reinforcement learning (RL) algorithms, our NN-PMP-Gradient achieves higher sample-efficiency and performance in terms of control objectives.
翻訳日:2024-01-10 00:21:53 公開日:2024-01-07
# DroidBot-GPT: GPTを利用したAndroid用UIオートメーション

DroidBot-GPT: GPT-powered UI Automation for Android ( http://arxiv.org/abs/2304.07061v5 )

ライセンス: Link先を確認
Hao Wen, Hongming Wang, Jiaxuan Liu, Yuanchun Li(参考訳) 本稿では,GPTライクな大規模言語モデル(LLM)を用いてAndroidモバイルアプリケーションとのインタラクションを自動化するツールであるDroidBot-GPTを紹介する。 必要なタスクの自然な言語記述が与えられると、droidbot-gptは、タスクを完了させるためにアプリをナビゲートするアクションを自動生成および実行することができる。 これは、スマートフォン画面のgui状態情報と利用可能なアクションを自然言語プロンプトに翻訳し、llmにアクションの選択を依頼することで機能する。 LLMは通常、多様なソフトウェアアプリケーションのハウツーマニュアルを含む大量のデータに基づいて訓練されているため、提供された情報に基づいて適切なアクションを選択することができる。 DroidBot-GPTは10のカテゴリにまたがる17のAndroidアプリケーションから収集した33のタスクを含む自己生成データセットで評価する。 39.39%のタスクを完了し、平均的な部分的な完了確率は約66.76%である。 当社の手法が完全に教師なしであるという事実(アプリとLLMの両方の修正は不要)を考えると、より良いアプリ開発パラダイムやカスタムモデルトレーニングで自動化性能を向上させる大きな可能性があると信じています。

This paper introduces DroidBot-GPT, a tool that utilizes GPT-like large language models (LLMs) to automate the interactions with Android mobile applications. Given a natural language description of a desired task, DroidBot-GPT can automatically generate and execute actions that navigate the app to complete the task. It works by translating the app GUI state information and the available actions on the smartphone screen to natural language prompts and asking the LLM to make a choice of actions. Since the LLM is typically trained on a large amount of data including the how-to manuals of diverse software applications, it has the ability to make reasonable choices of actions based on the provided information. We evaluate DroidBot-GPT with a self-created dataset that contains 33 tasks collected from 17 Android applications spanning 10 categories. It can successfully complete 39.39% of the tasks, and the average partial completion progress is about 66.76%. Given the fact that our method is fully unsupervised (no modification required from both the app and the LLM), we believe there is great potential to enhance automation performance with better app development paradigms and/or custom model training.
翻訳日:2024-01-10 00:13:50 公開日:2024-01-07
# コンピュータビジョンにおけるYOLOアーキテクチャの概要:YOLOv1からYOLOv8とYOLO-NAS

A Comprehensive Review of YOLO Architectures in Computer Vision: From YOLOv1 to YOLOv8 and YOLO-NAS ( http://arxiv.org/abs/2304.00501v6 )

ライセンス: Link先を確認
Juan Terven and Diana Cordova-Esparza(参考訳) YOLOは、ロボット工学、無人運転車、ビデオ監視アプリケーションのための中心的なリアルタイムオブジェクト検出システムになっている。 本稿では、YOLOの進化を総合的に分析し、元のYOLOからYOLOv8, YOLO-NAS, YOLOをトランスフォーマーで比較した。 まず、標準メトリクスと後処理を説明し、次に、ネットワークアーキテクチャにおける大きな変化と各モデルに対するトレーニングトリックについて論じる。 最後に, YOLOの開発から重要な教訓を要約し, リアルタイム物体検出システムの実現に向けた研究の方向性を明らかにする。

YOLO has become a central real-time object detection system for robotics, driverless cars, and video monitoring applications. We present a comprehensive analysis of YOLO's evolution, examining the innovations and contributions in each iteration from the original YOLO up to YOLOv8, YOLO-NAS, and YOLO with Transformers. We start by describing the standard metrics and postprocessing; then, we discuss the major changes in network architecture and training tricks for each model. Finally, we summarize the essential lessons from YOLO's development and provide a perspective on its future, highlighting potential research directions to enhance real-time object detection systems.
翻訳日:2024-01-10 00:13:29 公開日:2024-01-07
# 指導追従に関する包括的調査

A Comprehensive Survey on Instruction Following ( http://arxiv.org/abs/2303.10475v7 )

ライセンス: Link先を確認
Renze Lou, Kai Zhang, Wenpeng Yin(参考訳) タスクのセマンティクスは、入力出力の例のセットやテキストのインストラクションによって表現できる。 自然言語処理(NLP)に対する従来の機械学習アプローチは主に、タスク固有の大規模データセットの可用性に依存している。 まず、タスク固有のラベル付き例の収集は、タスクが複雑すぎるか、アノテートにコストがかかりすぎるか、あるいはシステムが新しいタスクを即座に処理する必要があるシナリオには適用されない。 それゆえ、nlpのための新しい監督・監視パラダイムへの関心が高まっている:タスク命令に従うための学習、すなわち命令追従である。 その目覚ましい進歩にもかかわらず、コミュニティが抱える共通の問題はいくつかある。 本調査では, 以下の質問に答えることにより, 現在の指導研究の要約と考察を試みている。 (i)タスク命令とは何で、どのような命令型が存在するか。 (ii)指示のモデル化方法? (iii)データセットや評価指標に従う一般的なインストラクションとは何か? (iv)指示の遂行に影響を及ぼす要因は何か。 (v) 指示に従う上での課題は? われわれの知る限りでは、次の教示に関する総合的な調査はこれが初めてである。

Task semantics can be expressed by a set of input-output examples or a piece of textual instruction. Conventional machine learning approaches for natural language processing (NLP) mainly rely on the availability of large-scale sets of task-specific examples. Two issues arise: first, collecting task-specific labeled examples does not apply to scenarios where tasks may be too complicated or costly to annotate, or the system is required to handle a new task immediately; second, this is not user-friendly since end-users are probably more willing to provide task description rather than a set of examples before using the system. Therefore, the community is paying increasing interest in a new supervision-seeking paradigm for NLP: learning to follow task instructions, i.e., instruction following. Despite its impressive progress, there are some common issues that the community struggles with. This survey paper tries to summarize and provide insights to the current research on instruction following, particularly, by answering the following questions: (i) What is task instruction, and what instruction types exist? (ii) How to model instructions? (iii) What are popular instruction following datasets and evaluation metrics? (iv) What factors influence and explain the instructions' performance? (v) What challenges remain in instruction following? To our knowledge, this is the first comprehensive survey about instruction following.
翻訳日:2024-01-10 00:11:56 公開日:2024-01-07
# 視覚的帰納的推論のための領域プロンプテッド・アダプタチューニング

A Region-Prompted Adapter Tuning for Visual Abductive Reasoning ( http://arxiv.org/abs/2303.10428v3 )

ライセンス: Link先を確認
Hao Zhang, Yeo Keat Ee, Basura Fernando(参考訳) 視覚的帰納的推論(visual abductive reasoning)とは、視覚言語(vl)のトピックで、モデルでは、常識に基づいた後方的推論を用いて、視覚入力(画像またはその部分)から、おそらくテキスト仮説を検索/生成する必要がある。 従来のVL検索やキャプションタスクとは異なり、帰納的推論ではテキストの実体が画像に現れるが、入力画像には推論に関する関連事実が容易には現れない。 さらに、これらの推論は特定の地域視覚手がかりと因果関係にあり、手がかりが変化するにつれて変化する。 既存の作品では、特定のプロンプト(例えば、カラフルなプロンプト)を利用したヒントが強調されている。 次に、VLファンデーションモデルの完全な微調整を行い、その機能を知覚から推論へと微調整する。 しかし、カラフルなプロンプトは同じ粒度で ``regional hints'' と ``global context'' に一様にパッチを当て、var に不可欠な細かな視覚詳細を失う可能性がある。 一方、限られたデータに対するVLFの完全な微調整は、容易に過度に適合する。 そこで本研究では,より詳細なキューの強みを生かし,VARタスクを効率的に訓練するハイブリッドパラメータ効率の微調整手法である,シンプルで効果的なRegional-Prompted Adapter (RPA)を提案する。 RPA~2つの新しいモジュール: Regional Prompt Generator (RPG) と Adapter$^\textbf{+}$。 前者は `` Regional visual hints'' と ``global contexts'' を細粒度と粗粒度で別々にビジュアルプロンプトにエンコードする。 後者は新しいMap Adapterでバニラアダプタを拡張し、トレーニング可能なローディムクエリ/キープロジェクションを使用してアテンションマップを変更する。 さらに,視覚特徴を現実的記述の特徴や妥当な仮説に回帰させる新しい双対的損失を提案する。 シャーロックの実験では、RPAは以前のSOTAよりも優れており、リーダーボードで1位(RPA~31.74対CPT-CLIP 29.58)を達成した。

Visual Abductive Reasoning is an emerging vision-language (VL) topic where the model needs to retrieve/generate a likely textual hypothesis from a visual input (image or its part) using backward reasoning based on commonsense. Unlike in conventional VL retrieval or captioning tasks, where entities of texts appear in the image, in abductive inferences, the relevant facts about inferences are not readily apparent in the input images. Besides, these inferences are causally linked to specific regional visual cues and would change as cues change. Existing works highlight cues utilizing a specific prompt (e.g., colorful prompt). Then, a full fine-tuning of a VL foundation model is launched to tweak its function from perception to deduction. However, the colorful prompt uniformly patchify ``regional hints'' and ``global context'' at the same granularity level and may lose fine-grained visual details crucial for VAR. Meanwhile, full fine-tuning of VLF on limited data would easily be overfitted. To tackle this, we propose a simple yet effective Region-Prompted Adapter (RPA), a hybrid parameter-efficient fine-tuning method that leverages the strengths of detailed cues and efficient training for the VAR task. RPA~consists of two novel modules: Regional Prompt Generator (RPG) and Adapter$^\textbf{+}$. The prior encodes ``regional visual hints'' and ``global contexts'' into visual prompts separately at fine and coarse-grained levels. The latter extends the vanilla adapters with a new Map Adapter, which modifies the attention map using a trainable low-dim query/key projection. Additionally, we propose a new Dual-Contrastive Loss to regress the visual feature toward features of factual description and plausible hypothesis. Experiments on the Sherlock demonstrate that RPA outperforms previous SOTAs, achieving the 1st rank on leaderboards (Comparison to Human Accuracy: RPA~31.74 vs CPT-CLIP 29.58).
翻訳日:2024-01-10 00:11:40 公開日:2024-01-07
# マスクの場所学習によるマスクオートエンコーダの改良

Improving Masked Autoencoders by Learning Where to Mask ( http://arxiv.org/abs/2303.06583v2 )

ライセンス: Link先を確認
Haijian Chen, Wendong Zhang, Yunbo Wang, Xiaokang Yang(参考訳) マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。 通常、ランダムマスクのイメージパッチ上に構築され、それらの間の情報密度の変化を無視する。 質問は、ランダムサンプリングよりもマスキング戦略が優れているか、どうやって学習できるのか、ということです。 この問題を経験的に研究し,まず,マスクサンプリングにおけるオブジェクト中心の優先順位の導入が学習表現を著しく改善できることを見出した。 この観測から着想を得たAutoMAEは、Gumbel-Softmaxを用いて、対向的に訓練されたマスクジェネレータとマスク誘導画像モデリングプロセスの相互接続を行う。 このようにして,異なる画像に対して高い情報密度を持つパッチを適応的に発見し,画像再構成から得られた情報ゲインと実際の学習困難とのバランスをさらに高めることができる。 実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。

Masked image modeling is a promising self-supervised learning method for visual data. It is typically built upon image patches with random masks, which largely ignores the variation of information density between them. The question is: Is there a better masking strategy than random sampling and how can we learn it? We empirically study this problem and initially find that introducing object-centric priors in mask sampling can significantly improve the learned representations. Inspired by this observation, we present AutoMAE, a fully differentiable framework that uses Gumbel-Softmax to interlink an adversarially-trained mask generator and a mask-guided image modeling process. In this way, our approach can adaptively find patches with higher information density for different images, and further strike a balance between the information gain obtained from image reconstruction and its practical training difficulty. In our experiments, AutoMAE is shown to provide effective pretraining models on standard self-supervised benchmarks and downstream tasks.
翻訳日:2024-01-10 00:11:03 公開日:2024-01-07
# データカーネルを用いた基礎モデルの比較

Comparing Foundation Models using Data Kernels ( http://arxiv.org/abs/2305.05126v3 )

ライセンス: Link先を確認
Brandon Duderstadt and Hayden S. Helm and Carey E. Priebe(参考訳) 自己教師付き学習とニューラルネットワークのスケーリングの最近の進歩により、基盤モデルとして知られる大規模モデルの作成が可能になった。 基礎モデルを比較する現在のパラダイムは、さまざまなベンチマークデータセットの集約メトリクスでそれらを評価することです。 このモデルの比較方法は、選択された評価メトリックに大きく依存しており、理想的なメトリックが明確でないか、利用できない状況には不適当である。 本研究では,基礎モデルの埋め込み空間形状を直接比較する手法を提案する。 本手法はランダムグラフ理論に基礎を置き,1日当たりの埋め込み類似性の有効な仮説検証を可能にする。 さらに、人口レベルのモデル比較を容易にするために、我々の方法論を拡張できることを実証する。 特に,いくつかの下流メトリックと強く相関する距離関数を備えたモデルの多様体を,フレームワークがいかに誘導できるかを示す。 基礎モデルの分類学への第一歩として,この集団レベルのモデル比較の有用性について述べる。

Recent advances in self-supervised learning and neural network scaling have enabled the creation of large models, known as foundation models, which can be easily adapted to a wide range of downstream tasks. The current paradigm for comparing foundation models involves evaluating them with aggregate metrics on various benchmark datasets. This method of model comparison is heavily dependent on the chosen evaluation metric, which makes it unsuitable for situations where the ideal metric is either not obvious or unavailable. In this work, we present a methodology for directly comparing the embedding space geometry of foundation models, which facilitates model comparison without the need for an explicit evaluation metric. Our methodology is grounded in random graph theory and enables valid hypothesis testing of embedding similarity on a per-datum basis. Further, we demonstrate how our methodology can be extended to facilitate population level model comparison. In particular, we show how our framework can induce a manifold of models equipped with a distance function that correlates strongly with several downstream metrics. We remark on the utility of this population level model comparison as a first step towards a taxonomic science of foundation models.
翻訳日:2024-01-10 00:01:48 公開日:2024-01-07
# 初期状態とミキサーのアライメントによるqaoa性能の改善と制約付き最適化

Alignment between Initial State and Mixer Improves QAOA Performance for Constrained Optimization ( http://arxiv.org/abs/2305.03857v3 )

ライセンス: Link先を確認
Zichang He, Ruslan Shaydulin, Shouvanik Chakrabarti, Dylan Herman, Changhao Li, Yue Sun, Marco Pistoia(参考訳) 量子交互演算子 ansatz (QAOA) は、十分な深さで近似できる断熱アルゴリズムと強いつながりを持つ。 しかし, 実際に実施されているQAOAについて, 小から中程度の深さでどのような教訓が適用されるかは定かではない。 本稿では, adiabaticアルゴリズムからの直観がqaoa初期状態の選択に応用できることを示す。 具体的には, adiabaticアルゴリズムによって要求されるように, qaoaの初期状態が混合ハミルトニアンの基底状態である場合, 最高の性能が得られることを観察する。 制約付きポートフォリオ最適化問題の例を用いて,低 (p\leq 3$) と高 (p = 100$) QAOA 深度の両方を用いた数値的エビデンスを提供する。 さらに,32量子ビットを用いたトラップイオン量子プロセッサのポートフォリオ最適化に,XYミキサーを用いたQAOAの適用に成功した。

Quantum alternating operator ansatz (QAOA) has a strong connection to the adiabatic algorithm, which it can approximate with sufficient depth. However, it is unclear to what extent the lessons from the adiabatic regime apply to QAOA as executed in practice with small to moderate depth. In this paper, we demonstrate that the intuition from the adiabatic algorithm applies to the task of choosing the QAOA initial state. Specifically, we observe that the best performance is obtained when the initial state of QAOA is set to be the ground state of the mixing Hamiltonian, as required by the adiabatic algorithm. We provide numerical evidence using the examples of constrained portfolio optimization problems with both low ($p\leq 3$) and high ($p = 100$) QAOA depth. Additionally, we successfully apply QAOA with XY mixer to portfolio optimization on a trapped-ion quantum processor using 32 qubits and discuss our findings in near-term experiments.
翻訳日:2024-01-10 00:01:15 公開日:2024-01-07
# 中国語と英語の両言語を持つ非ネイティブ音声コーパスの構築

Building a Non-native Speech Corpus Featuring Chinese-English Bilingual Children: Compilation and Rationale ( http://arxiv.org/abs/2305.00446v2 )

ライセンス: Link先を確認
Hiuchung Hung, Andreas Maier, Thorsten Piske(参考訳) 本稿では,5歳から6歳までの中英語児童の物語からなる非母語音声コーパスを紹介する。 英語のナラティブ理解テスト(l2)を受ける子どもの6.5時間分の書き起こしと、人間の評価スコアと文法的・発音的誤りの注釈を提示する。 子どもたちは中国語(L1)での並行MAIN試験を参考に完了した。 すべてのテストで、革新的な遠隔収集手法でオーディオとビデオを録音しました。 ビデオ録画は、幼児の転写過程におけるL2物語の低知能化の課題を軽減するのに役立つ。 このコーパスは、第二言語教育に貴重なリソースを提供し、自動音声認識(ASR)の全体的な性能を高める可能性がある。

This paper introduces a non-native speech corpus consisting of narratives from fifty 5- to 6-year-old Chinese-English children. Transcripts totaling 6.5 hours of children taking a narrative comprehension test in English (L2) are presented, along with human-rated scores and annotations of grammatical and pronunciation errors. The children also completed the parallel MAIN tests in Chinese (L1) for reference purposes. For all tests we recorded audio and video with our innovative self-developed remote collection methods. The video recordings serve to mitigate the challenge of low intelligibility in L2 narratives produced by young children during the transcription process. This corpus offers valuable resources for second language teaching and has the potential to enhance the overall performance of automatic speech recognition (ASR).
翻訳日:2024-01-09 23:59:29 公開日:2024-01-07
# darswin:歪みを考慮したラジアルスウィン変圧器

DarSwin: Distortion Aware Radial Swin Transformer ( http://arxiv.org/abs/2304.09691v4 )

ライセンス: Link先を確認
Akshaya Athwale, Ichrak Shili, \'Emile Bergeron, Arman Afrasiyabi, Justin Lag\"ue, Ola Ahmad and Jean-Fran\c{c}ois Lalonde(参考訳) 広角レンズは広い視野を必要とする知覚タスクで一般的に使用される。 残念ながら、これらのレンズは大きな歪みを生じさせ、歪み効果を無視する従来のモデルは広角画像に適応できない。 本稿では,広角レンズの歪みに自動的に適応する変圧器モデルを提案する。 提案した画像エンコーダアーキテクチャはDarSwinと呼ばれ、放射歪みプロファイルによって解析的に定義されたレンズの物理特性を利用する。 従来のトランスフォーマーベースのアーキテクチャとは対照的に、darswinはラジアルパッチパーティショニング、トークン埋め込みを作成するための歪みベースのサンプリング技術、ラジアルパッチマージのための角位置エンコーディングを備えている。 他のベースラインと比較して、darswinは、制限された歪み(非常に低い、低い、中、高い)のレベルをトレーニングして、分散の歪みを含むすべてをテストすると、さまざまなデータセットで最高の結果が得られる。 基礎となるdarswinアーキテクチャは放射歪プロファイルの知識を必要とするが、入力画像自体からそのようなプロファイルを推定する自己校正ネットワークと組み合わせることで、完全な非校正パイプラインが得られる。 最後に、DarSwinを拡張したDarSwin-Unetを、ピクセルレベルのタスクに適したエンコーダデコーダアーキテクチャに提示する。 本研究では,DarSwin-Unet による広角レンズの歪みに対するゼロショット適応が可能であることを示す。 コードとモデルはhttps://lvsn.github.io/darswin/で公開されている。

Wide-angle lenses are commonly used in perception tasks requiring a large field of view. Unfortunately, these lenses produce significant distortions, making conventional models that ignore the distortion effects unable to adapt to wide-angle images. In this paper, we present a novel transformer-based model that automatically adapts to the distortion produced by wide-angle lenses. Our proposed image encoder architecture, dubbed DarSwin, leverages the physical characteristics of such lenses analytically defined by the radial distortion profile. In contrast to conventional transformer-based architectures, DarSwin comprises a radial patch partitioning, a distortion-based sampling technique for creating token embeddings, and an angular position encoding for radial patch merging. Compared to other baselines, DarSwin achieves the best results on different datasets with significant gains when trained on bounded levels of distortions (very low, low, medium, and high) and tested on all, including out-of-distribution distortions. While the base DarSwin architecture requires knowledge of the radial distortion profile, we show it can be combined with a self-calibration network that estimates such a profile from the input image itself, resulting in a completely uncalibrated pipeline. Finally, we also present DarSwin-Unet, which extends DarSwin, to an encoder-decoder architecture suitable for pixel-level tasks. We demonstrate its performance on depth estimation and show through extensive experiments that DarSwin-Unet can perform zero-shot adaptation to unseen distortions of different wide-angle lenses. The code and models are publicly available at https://lvsn.github.io/darswin/
翻訳日:2024-01-09 23:57:57 公開日:2024-01-07
# PGformer:多人数対話型エクストリームモーション予測のためのプロキシブリッジ型ゲームトランス

PGformer: Proxy-Bridged Game Transformer for Multi-Person Highly Interactive Extreme Motion Prediction ( http://arxiv.org/abs/2306.03374v3 )

ライセンス: Link先を確認
Yanwen Fang, Jintai Chen, Peng-Tao Jiang, Chao Li, Yifeng Geng, Eddy K. F. Lam, Guodong Li(参考訳) マルチパーソン動作予測は,特に対話性の高い人物の現実シナリオにおいて,困難な課題である。 これまでのほとんどの研究は、弱い相互作用(例えば、一緒に歩くこと)のケースの研究に費やされてきた。 本稿では, 極端な動きを持つ複数人の協調動作予測に焦点をあて, 高度に対話的な人物のポーズ軌跡の関係を探究する。 具体的には,この状況に適した2つのポーズ列間の相互依存性を双方向に学習するために,新しいクロスクエリアテンション(XQA)モジュールを提案する。 また,提案するXQAモジュールと連携し,双方向空間情報の流れを微妙に制御するプロキシユニットを導入する。 これらの設計はTransformerベースのアーキテクチャに統合され、結果として得られるモデルは、多人数対話型モーション予測のためのProxy-bridged Game Transformer (PGformer)と呼ばれる。 その効果は、非常にインタラクティブなアクションを含む挑戦的なExPIデータセットで評価されている。 pgformerは短期予測と長期予測の両方において最先端の手法を一貫して上回っている。 さらに、我々のアプローチは、弱い相互作用を持つCMU-MocapとMuPoTS-3Dデータセットと互換性があり、2人以上の個人に対して効果を促進できる。

Multi-person motion prediction is a challenging task, especially for real-world scenarios of highly interacted persons. Most previous works have been devoted to studying the case of weak interactions (e.g., walking together), in which typically forecasting each human pose in isolation can still achieve good performances. This paper focuses on collaborative motion prediction for multiple persons with extreme motions and attempts to explore the relationships between the highly interactive persons' pose trajectories. Specifically, a novel cross-query attention (XQA) module is proposed to bilaterally learn the cross-dependencies between the two pose sequences tailored for this situation. A proxy unit is additionally introduced to bridge the involved persons, which cooperates with our proposed XQA module and subtly controls the bidirectional spatial information flows. These designs are then integrated into a Transformer-based architecture and the resulting model is called Proxy-bridged Game Transformer (PGformer) for multi-person interactive motion prediction. Its effectiveness has been evaluated on the challenging ExPI dataset, which involves highly interactive actions. Our PGformer consistently outperforms the state-of-the-art methods in both short- and long-term predictions by a large margin. Besides, our approach can also be compatible with the weakly interacted CMU-Mocap and MuPoTS-3D datasets and extended to the case of more than 2 individuals with encouraging results.
翻訳日:2024-01-09 23:51:08 公開日:2024-01-07
# ゼロショットHuman-AIコーディネーションのための協調的不整合処理

Tackling Cooperative Incompatibility for Zero-Shot Human-AI Coordination ( http://arxiv.org/abs/2306.03034v2 )

ライセンス: Link先を確認
Yang Li, Shao Zhang, Jichen Sun, Wenhao Zhang, Yali Du, Ying Wen, Xinbing Wang, Wei Pan(参考訳) AIエージェントとチームメイト(人間プレイヤーまたはAIエージェント)の協調を、馴染みのない人間を含む文脈で確保することは、ゼロショットコーディネーションにおいて重要な課題である。 aiエージェントが特定の未知のパートナーとの同期に失敗した場合、協調的非互換性の問題は特に顕著になる。 従来のアルゴリズムは、集団内の固定目標を最適化し、戦略や行動の多様性を育み、パートナーと協力することを目的としていた。 しかし、これらの手法は、学習の損失と、集団内の特定の戦略と協調できないことにつながる可能性がある。 学習における協調的非互換性を解消し、zscの文脈でこの問題を効果的に解決するために、各戦略の協調能力を評価するために、グラフ理論の視点を用いて、2人のプレイヤーと協調ゲームにおける開放的目標を定式化した協調的開放学習(cole)フレームワークを導入する。 本稿では,ゲーム理論とグラフ理論の洞察を取り入れた2つの実用的なアルゴリズム,特に \algo と \algoR を提案する。 また,COLEは理論的および経験的分析から協調的不整合性を効果的に克服できることを示した。 続いて,質問票やモデル重み付け,その他の面を簡単にカスタマイズ可能な,人間-ai実験プラットフォームであるcole platformを開発した。 coleプラットフォームを利用して,130名の参加者を人間実験に参加させる。 本研究は,種々の主観的指標を用いた最先端手法に対するアプローチの好みを明らかにする。 さらに,オーバークッキングゲーム環境における客観的な実験結果から,従来のAIエージェントやヒューマンプロキシモデルとの協調作業において,本手法が既存手法を上回ることが示唆された。

Securing coordination between AI agent and teammates (human players or AI agents) in contexts involving unfamiliar humans continues to pose a significant challenge in Zero-Shot Coordination. The issue of cooperative incompatibility becomes particularly prominent when an AI agent is unsuccessful in synchronizing with certain previously unknown partners. Traditional algorithms have aimed to collaborate with partners by optimizing fixed objectives within a population, fostering diversity in strategies and behaviors. However, these techniques may lead to learning loss and an inability to cooperate with specific strategies within the population, a phenomenon named cooperative incompatibility in learning. In order to solve cooperative incompatibility in learning and effectively address the problem in the context of ZSC, we introduce the Cooperative Open-ended LEarning (COLE) framework, which formulates open-ended objectives in cooperative games with two players using perspectives of graph theory to evaluate and pinpoint the cooperative capacity of each strategy. We present two practical algorithms, specifically \algo and \algoR, which incorporate insights from game theory and graph theory. We also show that COLE could effectively overcome the cooperative incompatibility from theoretical and empirical analysis. Subsequently, we created an online Overcooked human-AI experiment platform, the COLE platform, which enables easy customization of questionnaires, model weights, and other aspects. Utilizing the COLE platform, we enlist 130 participants for human experiments. Our findings reveal a preference for our approach over state-of-the-art methods using a variety of subjective metrics. Moreover, objective experimental outcomes in the Overcooked game environment indicate that our method surpasses existing ones when coordinating with previously unencountered AI agents and the human proxy model.
翻訳日:2024-01-09 23:50:45 公開日:2024-01-07
# キャビティqedモデルにおける絡み合いと量子不一致

Entanglement and quantum discord in the cavity QED models ( http://arxiv.org/abs/2307.07352v3 )

ライセンス: Link先を確認
Miao Hui-hui and Li Wang-shun(参考訳) 2キュービットのJaynes-Cummingsモデル(共通キャビティ量子電磁力学モデル)と3キュービットのTavis-Cummingsモデルの変更により、二部量子系における光と物質間の量子相関について検討する。 量子マスター方程式の解法により、開系における散逸ダイナミクスを導出することができる。 量子エンタングルメントの度合いを測るために、フォン・ノイマンエントロピー、コンカレンス、量子不協和といったいくつかのエンタングルメント測度が導入された。 さらに、量子ディスコードに対する初期絡み合いと散逸強度の影響についても考察する。 最後に、量子と古典の2つの異なる原子運動のケースについて議論した。

Based on the two-qubit Jaynes-Cummings model - a common cavity quantum electrodynamics model, and extending to modification of the three-qubit Tavis-Cummings model, we investigate the quantum correlation between light and matter in bipartite quantum systems. By resolving the quantum master equation, we are able to derive the dissipative dynamics in open systems. To gauge the degree of quantum entanglement, some entanglement measurements are introduced: von Neumann entropy, concurrence and quantum discord. In addition, consideration is given to the impacts of initial entanglement and dissipation strength on quantum discord. Finally we discussed two different cases of nuclei motion: quantum and classical.
翻訳日:2024-01-09 23:38:34 公開日:2024-01-07
# ピアソン相関係数による量子系の全相関の定量化

Quantifying total correlations in quantum systems through the Pearson correlation coefficient ( http://arxiv.org/abs/2306.14458v2 )

ライセンス: Link先を確認
Spyros Tserkis, Syed M. Assad, Ping Koy Lam, Prineha Narang(参考訳) 従来、量子系内の全相関は相対エントロピーや正方形ノルムといった距離に基づく表現によって定量化される。 これらの式は、量子状態が古典的および量子的相関を含むことを示唆している。 本研究では,ピアソン相関係数を用いて全相関を定量化する方法を提案する。 この方法を用いて、量子状態は古典的あるいは量子的な方法で相関できる、すなわち、この2つのケースは互いに排他的である、と論じる。 また、少なくとも2量子ビット系の場合、ある局所的に非互換な可観測系ペア間の相関分布は、システムが古典的または量子的相関を含むかどうかについての洞察を与える。 最後に、量子系における相関が一般エントロピーの不確かさ原理とどのように結びついているかを示す。

Conventionally, the total correlations within a quantum system are quantified through distance-based expressions such as the relative entropy or the square-norm. Those expressions imply that a quantum state can contain both classical and quantum correlations. In this work, we provide an alternative method to quantify the total correlations through the Pearson correlation coefficient. Using this method, we argue that a quantum state can be correlated in either a classical or a quantum way, i.e., the two cases are mutually exclusive. We also illustrate that, at least for the case of two-qubit systems, the distribution of the correlations among certain locally incompatible pairs of observables provides insight in regards to whether a system contains classical or quantum correlations. Finally, we show how correlations in quantum systems are connected to the general entropic uncertainty principle.
翻訳日:2024-01-09 23:36:19 公開日:2024-01-07
# mlic++: 学習画像圧縮のための線形複雑性注意に基づくマルチリファレンスエントロピーモデリング

MLIC++: Linear Complexity Attention-based Multi-Reference Entropy Modeling for Learned Image Compression ( http://arxiv.org/abs/2307.15421v5 )

ライセンス: Link先を確認
Wei Jiang, Jiayu Yang, Yongqi Zhai, Feng Gao, Ronggang Wang(参考訳) 近年,学習画像圧縮の性能が向上している。 潜在表現の分布を推定するエントロピーモデルは、速度分散性能を向上させる上で重要な役割を果たす。 しかし、既存のグローバルコンテキストモジュールは、大域相関を捉えるために計算集約的な二次複雑性計算に依存する。 この二次的な複雑さは高解像度画像符号化の可能性に制限を課す。 さらに、局所的、大域的、チャネル的コンテキストを単一のエントロピーモデル内で許容可能な線形複雑度で効果的に捉えることは課題である。 これらの制約に対処するため,線形複雑度注意に基づくマルチ参照エントロピーモデル(MEM++)を提案する。 MEM++は、潜在表現に固有の様々な相関関係を効果的にキャプチャする。 具体的には、潜在表現をまず複数のスライスに分割する。 特定のスライスを圧縮する場合、以前圧縮されたスライスはそのチャネルワイズコンテキストとして機能する。 性能を犠牲にすることなくローカルコンテキストをキャプチャするために,新しいチェッカーボードアテンションモジュールを導入する。 さらに,グローバルコンテキストを捉えるために,ソフトマックス操作の分解を利用した線形複雑性注意に基づくグローバル相関手法を提案する。 予め復号されたスライスのアテンションマップは暗黙的に計算され、現在のスライスにおけるグローバル相関を予測するために使用される。 MEM++に基づく画像圧縮モデルMLIC++を提案する。 大規模な実験により、我々のMLIC++は最先端のパフォーマンスを実現し、PSNRのVTM-17.0と比較して、KodakデータセットのBDレートを13.39%削減した。 さらに、MLIC++はリニアGPUメモリを解像度で表示し、高解像度の画像符号化に非常に適している。 コードと事前訓練されたモデルはhttps://github.com/JiangWeibeta/MLIC.comで入手できる。

Recently, learned image compression has achieved impressive performance. The entropy model, which estimates the distribution of the latent representation, plays a crucial role in enhancing rate-distortion performance. However, existing global context modules rely on computationally intensive quadratic complexity computations to capture global correlations. This quadratic complexity imposes limitations on the potential of high-resolution image coding. Moreover, effectively capturing local, global, and channel-wise contexts with acceptable even linear complexity within a single entropy model remains a challenge. To address these limitations, we propose the Linear Complexity Attention-based Multi-Reference Entropy Model (MEM++). MEM++ effectively captures the diverse range of correlations inherent in the latent representation. Specifically, the latent representation is first divided into multiple slices. When compressing a particular slice, the previously compressed slices serve as its channel-wise contexts. To capture local contexts without sacrificing performance, we introduce a novel checkerboard attention module. Additionally, to capture global contexts, we propose the linear complexity attention-based global correlations capturing by leveraging the decomposition of the softmax operation. The attention map of the previously decoded slice is implicitly computed and employed to predict global correlations in the current slice. Based on MEM++, we propose image compression model MLIC++. Extensive experimental evaluations demonstrate that our MLIC++ achieves state-of-the-art performance, reducing BD-rate by 13.39% on the Kodak dataset compared to VTM-17.0 in PSNR. Furthermore, MLIC++ exhibits linear GPU memory consumption with resolution, making it highly suitable for high-resolution image coding. Code and pre-trained models are available at https://github.com/JiangWeibeta/MLIC.
翻訳日:2024-01-09 23:23:51 公開日:2024-01-07
# 医用画像分類のための半教師あり自己教師あり学習の体系的比較

Systematic comparison of semi-supervised and self-supervised learning for medical image classification ( http://arxiv.org/abs/2307.08919v2 )

ライセンス: Link先を確認
Zhe Huang, Ruijie Jiang, Shuchin Aeron, and Michael C. Hughes(参考訳) 多くの医学画像分類問題では、ラベル付きデータが不足し、ラベルなしデータが利用可能である。 半教師付き学習と自己教師付き学習は、追加のラベル付きデータから学習することで精度を向上させる2つの研究方向である。 両方の方向からの最近の手法は、従来のベンチマークで顕著な上昇を報告している。 しかし、過去のベンチマークは医療のタスクに焦点を合わせておらず、自己と半メソッドを等しく比較することは滅多にない。 さらに、過去のベンチマークはハイパーパラメータチューニングを亜最適に扱うことが多い。 まず、ハイパーパラメータを全く調整せず、不適合になる可能性がある。 第二に、チューニングが発生した場合、しばしば非現実的に列車セットよりもはるかに大きいラベル付き検証セットを使用する。 どちらのケースも、以前公開されたメソッドのランキングを実用的な設定に変換するのが難しくしている。 本研究は,ラベル付きデータが少なく,計算予算が限られている実践者を支援するための統一的な実験プロトコルを用いて,自己および半方法論の体系的評価に寄与する。 ハイパーパラメータチューニングは現実的なサイズの検証セットで有効か? もしそうなら、すべてのメソッドがうまくチューニングされた場合、どのセルフまたはセミ教師付きメソッドが最高の精度に達するか? 本研究は、4つの医療データセットにおける13の代表的半教師付き手法と強いラベル付きセットのみのベースラインを比較した。 20000以上の計算時間から、リソースに制約のある結果にフォーカスした実践者に貴重なベストプラクティスを提供する。

In many medical image classification problems, labeled data is scarce while unlabeled data is more available. Semi-supervised learning and self-supervised learning are two different research directions that can improve accuracy by learning from extra unlabeled data. Recent methods from both directions have reported significant gains on traditional benchmarks. Yet past benchmarks do not focus on medical tasks and rarely compare self- and semi- methods together on equal footing. Furthermore, past benchmarks often handle hyperparameter tuning suboptimally. First, they may not tune hyperparameters at all, leading to underfitting. Second, when tuning does occur, it often unrealistically uses a labeled validation set much larger than the train set. Both cases make previously published rankings of methods difficult to translate to practical settings. This study contributes a systematic evaluation of self- and semi- methods with a unified experimental protocol intended to guide a practitioner with scarce overall labeled data and a limited compute budget. We answer two key questions: Can hyperparameter tuning be effective with realistic-sized validation sets? If so, when all methods are tuned well, which self- or semi-supervised methods reach the best accuracy? Our study compares 13 representative semi- and self-supervised methods to strong labeled-set-only baselines on 4 medical datasets. From 20000+ total GPU hours of computation, we provide valuable best practices to resource-constrained, results-focused practitioners.
翻訳日:2024-01-09 23:22:13 公開日:2024-01-07
# SINDyおよび演算子推論における定常2次モデルとその応用

Guaranteed Stable Quadratic Models and their applications in SINDy and Operator Inference ( http://arxiv.org/abs/2308.13819v2 )

ライセンス: Link先を確認
Pawan Goyal and Igor Pontes Duff and Peter Benner(参考訳) 力学系を推論する科学機械学習は、データ駆動モデリング、物理に基づくモデリング、経験的知識を組み合わせる。 工学設計とデジタルツインニングにおいて重要な役割を果たしている。 本研究は, モデル構造に先行する仮説を持ち, 既知の物理によって決定されるか, 専門家によって与えられるような力学モデルを構築する演算子推論手法に主に焦点をあてる。 そこで我々は,適切な最適化問題を設定することによってモデルの演算子を学習することを目指す。 力学系の重要な性質の1つは安定性である。 しかし、この性質は推論されたモデルでは保証されない。 本研究では,設計上安定な二次モデルを学ぶための推論定式化を提案する。 正確には、局所的かつグローバルに安定な二次系のパラメータ化について論じる。 さらに、安定点が有界でない二次系(例えばカオスロレンツモデル)では、そのような有界な振る舞いを学習プロセスでパラメータ化する方法について議論する。 これらのパラメータ化を用いて推論問題を設定し,勾配に基づく最適化手法を用いて解く。 さらに, 数値微分を回避し, 連続系を学習するために, 微分方程式の積分形式を用いる。 本稿では,安定性の保存を図解した数値例をいくつか提示し,それとinfer演算子の既存手法との比較について考察する。 また, 数値例を用いて, 制御方程式やエネルギー保存モデルの発見に提案手法を応用した例を示す。

Scientific machine learning for inferring dynamical systems combines data-driven modeling, physics-based modeling, and empirical knowledge. It plays an essential role in engineering design and digital twinning. In this work, we primarily focus on an operator inference methodology that builds dynamical models, preferably in low-dimension, with a prior hypothesis on the model structure, often determined by known physics or given by experts. Then, for inference, we aim to learn the operators of a model by setting up an appropriate optimization problem. One of the critical properties of dynamical systems is stability. However, this property is not guaranteed by the inferred models. In this work, we propose inference formulations to learn quadratic models, which are stable by design. Precisely, we discuss the parameterization of quadratic systems that are locally and globally stable. Moreover, for quadratic systems with no stable point yet bounded (e.g., chaotic Lorenz model), we discuss how to parameterize such bounded behaviors in the learning process. Using those parameterizations, we set up inference problems, which are then solved using a gradient-based optimization method. Furthermore, to avoid numerical derivatives and still learn continuous systems, we make use of an integral form of differential equations. We present several numerical examples, illustrating the preservation of stability and discussing its comparison with the existing state-of-the-art approach to infer operators. By means of numerical examples, we also demonstrate how the proposed methods are employed to discover governing equations and energy-preserving models.
翻訳日:2024-01-09 23:14:26 公開日:2024-01-07
# STEM:マルチタスクレコメンデーションのための埋め込みのパワーの解放

STEM: Unleashing the Power of Embeddings for Multi-task Recommendation ( http://arxiv.org/abs/2308.13537v2 )

ライセンス: Link先を確認
Liangcai Su, Junwei Pan, Ximei Wang, Xi Xiao, Shijie Quan, Xihua Chen, Jie Jiang(参考訳) マルチタスク学習(mtl)は,複数の目的の同時最適化を可能にするため,レコメンダシステムにおいて大きな注目を集めている。 MTLの鍵となる課題は負の移動であるが、既存の研究では全てのサンプルに対する負の移動を探索し、その中の固有の複雑さを見渡した。 我々は,タスク間の正のフィードバックの相対的な量に応じて,サンプルを分割した。 驚くべきことに、タスク間で同等のフィードバックを受けるサンプルの既存のMTLメソッドでは、依然として負の転送が発生する。 既存の作業では共有埋め込みのパラダイムが一般的であり、さまざまなタスクで多様なユーザの好みをモデル化する能力を制限する。 本稿では,タスク固有のユーザ嗜好を効果的に把握するために,共有およびタスク固有の埋め込み(STEM)パラダイムを導入する。 本パラダイムでは、タスク固有の埋め込みの学習とタスク間の直接知識伝達を容易にするために、All Forward Task-specific Backward Gating Networkを備えたシンプルなモデルSTEM-Netを提案する。 注目すべきは、STEM-Netは、同等のサンプルに対して例外的な性能を示し、正の転送を達成することである。 3つのパブリックMTLレコメンデーションデータセットの総合的な評価は、STEM-Netが最先端モデルよりかなり優れていることを示している。 私たちのコードはhttps://github.com/LiangcaiSu/STEMで公開されています。

Multi-task learning (MTL) has gained significant popularity in recommender systems as it enables simultaneous optimization of multiple objectives. A key challenge in MTL is negative transfer, but existing studies explored negative transfer on all samples, overlooking the inherent complexities within them. We split the samples according to the relative amount of positive feedback among tasks. Surprisingly, negative transfer still occurs in existing MTL methods on samples that receive comparable feedback across tasks. Existing work commonly employs a shared-embedding paradigm, limiting the ability of modeling diverse user preferences on different tasks. In this paper, we introduce a novel Shared and Task-specific EMbeddings (STEM) paradigm that aims to incorporate both shared and task-specific embeddings to effectively capture task-specific user preferences. Under this paradigm, we propose a simple model STEM-Net, which is equipped with an All Forward Task-specific Backward gating network to facilitate the learning of task-specific embeddings and direct knowledge transfer across tasks. Remarkably, STEM-Net demonstrates exceptional performance on comparable samples, achieving positive transfer. Comprehensive evaluation on three public MTL recommendation datasets demonstrates that STEM-Net outperforms state-of-the-art models by a substantial margin. Our code is released at https://github.com/LiangcaiSu/STEM.
翻訳日:2024-01-09 23:12:48 公開日:2024-01-07
# WavMark: オーディオ生成のための透かし

WavMark: Watermarking for Audio Generation ( http://arxiv.org/abs/2308.12770v3 )

ライセンス: Link先を確認
Guangyu Chen, Yu Wu, Shujie Liu, Tao Liu, Xiaoyong Du, Furu Wei(参考訳) ゼロショット音声合成の最近の進歩は、高レベルのリアリズムを維持しながら、わずか数秒の録音で話者の声を模倣することを可能にする。 その潜在的なメリットに加えて、この強力な技術は、音声詐欺やスピーカーの偽造など、大きなリスクをもたらす。 従来の合成データ検出の受動的手法にのみ依存するアプローチとは異なり、ウォーターマーキングはこれらの略奪的リスクに対して積極的に堅牢な防御機構を示す。 本稿では,1秒間の音声スニペット内で最大32ビットの透かしを符号化する,革新的な音声透かしフレームワークを提案する。 透かしは人間の感覚に影響されず、様々な攻撃に対して強い抵抗力を示す。 合成音声の効果的な識別子として機能し、オーディオ著作権保護の幅広い応用の可能性を秘めている。 さらに、このフレームワークは柔軟性が高く、複数のウォーターマークセグメントを組み合わせることで、堅牢性と拡張容量を実現することができる。 10秒から20秒の音声をホストとして使用することで、平均ビットエラーレート(ber)が10回の一般的な攻撃で0.48\%となり、最先端のウォーターマーキングツールと比較して2800\%以上のberが著しく削減されることを示した。 私たちの作品のデモはhttps://aka.ms/wavmarkを参照。

Recent breakthroughs in zero-shot voice synthesis have enabled imitating a speaker's voice using just a few seconds of recording while maintaining a high level of realism. Alongside its potential benefits, this powerful technology introduces notable risks, including voice fraud and speaker impersonation. Unlike the conventional approach of solely relying on passive methods for detecting synthetic data, watermarking presents a proactive and robust defence mechanism against these looming risks. This paper introduces an innovative audio watermarking framework that encodes up to 32 bits of watermark within a mere 1-second audio snippet. The watermark is imperceptible to human senses and exhibits strong resilience against various attacks. It can serve as an effective identifier for synthesized voices and holds potential for broader applications in audio copyright protection. Moreover, this framework boasts high flexibility, allowing for the combination of multiple watermark segments to achieve heightened robustness and expanded capacity. Utilizing 10 to 20-second audio as the host, our approach demonstrates an average Bit Error Rate (BER) of 0.48\% across ten common attacks, a remarkable reduction of over 2800\% in BER compared to the state-of-the-art watermarking tool. See https://aka.ms/wavmark for demos of our work.
翻訳日:2024-01-09 23:12:03 公開日:2024-01-07
# 効率的な量子ファクタリングアルゴリズム

An Efficient Quantum Factoring Algorithm ( http://arxiv.org/abs/2308.06572v3 )

ライセンス: Link先を確認
Oded Regev(参考訳) 我々は、$n$-bit整数が$\tilde{O}(n^{3/2})$ gates for $\sqrt{n}+4$ times の量子回路を独立に実行し、多項式時間古典的後処理を用いて分解可能であることを示す。 アルゴリズムの正確性は、副指数的古典的因子化アルゴリズムで使われるものを思い起こさせる数論的ヒューリスティックな仮定に依存する。 このアルゴリズムが実際に物理実装の改善に繋がるかどうかはまだ明らかになっていない。

We show that $n$-bit integers can be factorized by independently running a quantum circuit with $\tilde{O}(n^{3/2})$ gates for $\sqrt{n}+4$ times, and then using polynomial-time classical post-processing. The correctness of the algorithm relies on a number-theoretic heuristic assumption reminiscent of those used in subexponential classical factorization algorithms. It is currently not clear if the algorithm can lead to improved physical implementations in practice.
翻訳日:2024-01-09 23:09:59 公開日:2024-01-07
# 軽量自己監督単眼深度推定のための深部近傍層凝集

Deep Neighbor Layer Aggregation for Lightweight Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2309.09272v2 )

ライセンス: Link先を確認
Wang Boya, Wang Shuo, Ye Dong, Dou Ziwen(参考訳) ロボット工学や自律運転における自己監督単眼深度推定の頻繁な利用により、モデルの効率性はますます重要になっている。 現在のアプローチのほとんどは、より大きく複雑なネットワークを適用して、深さ推定の精度を向上させる。 一部の研究者は、Transformerを自己教師付き単眼深度推定に組み込んで、より良い性能を実現した。 しかし、この手法は高いパラメータと高い計算につながる。 文脈的特徴融合を用いた完全畳み込み深度推定ネットワークを提案する。 unet++やhrnetと比較して、私たちは長距離融合ではなく、小さなターゲットや高速に動くオブジェクトの情報を保存するために、高解像度で低解像度の機能を使用します。 さらに,デコーダ段の畳み込みに基づく軽量チャネルアテンションを用いた深さ推定結果をさらに促進する。 本手法は精度を犠牲にすることなくパラメータを削減する。 KITTIベンチマーク実験により,本手法は,約30パラメータのMonodepth2のような大規模モデルよりも優れた結果が得られることが示された。 ソースコードはhttps://github.com/boyagesmile/DNA-Depth.comで入手できる。

With the frequent use of self-supervised monocular depth estimation in robotics and autonomous driving, the model's efficiency is becoming increasingly important. Most current approaches apply much larger and more complex networks to improve the precision of depth estimation. Some researchers incorporated Transformer into self-supervised monocular depth estimation to achieve better performance. However, this method leads to high parameters and high computation. We present a fully convolutional depth estimation network using contextual feature fusion. Compared to UNet++ and HRNet, we use high-resolution and low-resolution features to reserve information on small targets and fast-moving objects instead of long-range fusion. We further promote depth estimation results employing lightweight channel attention based on convolution in the decoder stage. Our method reduces the parameters without sacrificing accuracy. Experiments on the KITTI benchmark show that our method can get better results than many large models, such as Monodepth2, with only 30 parameters. The source code is available at https://github.com/boyagesmile/DNA-Depth.
翻訳日:2024-01-09 23:01:19 公開日:2024-01-07
# ディープラーニングに基づく音声強調のための発声過程の連続的モデル化

Continuous Modeling of the Denoising Process for Speech Enhancement Based on Deep Learning ( http://arxiv.org/abs/2309.09270v2 )

ライセンス: Link先を確認
Zilu Guo, Jun Du, CHin-Hui Lee(参考訳) 本稿では,ディープラーニングに基づく音声強調のための連続的モデリング手法について検討する。 状態変数を使用して、denoisingプロセスを示します。 開始状態はうるさいスピーチであり、終了状態は清潔なスピーチである。 状態変数のノイズ成分は、ノイズ成分が0になるまで状態指数の変化に伴って減少する。 トレーニング中、UNetのようなニューラルネットワークは、連続的な認知プロセスからサンプリングされたすべての状態変数を推定する。 テストでは、ゼロから1まで、ニューラルネットワークへの埋め込みとして制御因子を導入し、ノイズ低減のレベルを制御できるようにします。 このアプローチは、制御可能な音声強調を可能にし、様々なアプリケーションシナリオに適応できる。 実験結果から,クリーンターゲットにおける少量の雑音の保持は,客観的な音声計測と自動音声認識性能の改善により,音声強調に有効であることが示唆された。

In this paper, we explore a continuous modeling approach for deep-learning-based speech enhancement, focusing on the denoising process. We use a state variable to indicate the denoising process. The starting state is noisy speech and the ending state is clean speech. The noise component in the state variable decreases with the change of the state index until the noise component is 0. During training, a UNet-like neural network learns to estimate every state variable sampled from the continuous denoising process. In testing, we introduce a controlling factor as an embedding, ranging from zero to one, to the neural network, allowing us to control the level of noise reduction. This approach enables controllable speech enhancement and is adaptable to various application scenarios. Experimental results indicate that preserving a small amount of noise in the clean target benefits speech enhancement, as evidenced by improvements in both objective speech measures and automatic speech recognition performance.
翻訳日:2024-01-09 23:01:03 公開日:2024-01-07
# プロンプティング戦略によるレビューテキストのマルチドメイン感性分析

Enhance Multi-domain Sentiment Analysis of Review Texts through Prompting Strategies ( http://arxiv.org/abs/2309.02045v2 )

ライセンス: Link先を確認
Yajing Wang and Zongwei Luo(参考訳) 大規模言語モデル(LLM)は科学的研究と実践的応用の両方において大きな進歩を遂げてきた。 既存の研究では、自然言語処理タスクにおけるLLMの最先端(SOTA)性能が実証されている。 しかし、特定のタスクにおいて、プロンプト戦略を用いてLLMの性能をさらに向上させるかという問題は、依然として重要な懸念事項である。 本稿では,感情分析におけるLCMの性能向上について,プロンプト戦略の適用を通して検討する。 本研究では,感情分析タスクの促進過程を定式化し,感情分析に適した2つの新しい戦略,RolePlaying(RP)プロンプトとChain-of-Thought(CoT)プロンプトを導入する。 具体的には,RPプロンプトとCoTプロンプトを組み合わせたRP-CoTプロンプト戦略を提案する。 提案する感情分析手法の有効性を評価するために,3つの異なるドメインデータセットの比較実験を行った。 その結果,提案手法の採用により,感情分析の精度が向上することが示唆された。 さらに、CoTプロンプト戦略は暗黙の感情分析に顕著な影響を与え、RP-CoTプロンプト戦略はすべての戦略の中で最も優れたパフォーマンスを提供する。

Large Language Models (LLMs) have made significant strides in both scientific research and practical applications. Existing studies have demonstrated the state-of-the-art (SOTA) performance of LLMs in various natural language processing tasks. However, the question of how to further enhance LLMs' performance in specific task using prompting strategies remains a pivotal concern. This paper explores the enhancement of LLMs' performance in sentiment analysis through the application of prompting strategies. We formulate the process of prompting for sentiment analysis tasks and introduce two novel strategies tailored for sentiment analysis: RolePlaying (RP) prompting and Chain-of-thought (CoT) prompting. Specifically, we also propose the RP-CoT prompting strategy which is a combination of RP prompting and CoT prompting. We conduct comparative experiments on three distinct domain datasets to evaluate the effectiveness of the proposed sentiment analysis strategies. The results demonstrate that the adoption of the proposed prompting strategies leads to a increasing enhancement in sentiment analysis accuracy. Further, the CoT prompting strategy exhibits a notable impact on implicit sentiment analysis, with the RP-CoT prompting strategy delivering the most superior performance among all strategies.
翻訳日:2024-01-09 22:58:16 公開日:2024-01-07
# 偽真空崩壊のリアルタイムダイナミクス

Real-time dynamics of false vacuum decay ( http://arxiv.org/abs/2310.04206v2 )

ライセンス: Link先を確認
Laura Batini, Aleksandr Chatrchyan and J\"urgen Berges(参考訳) 非対称二重ウェルポテンシャルの準安定最小値で初期化された相対論的スカラー場の偽真空崩壊について検討する。 真の基底状態への遷移は、閉時間経路上の非平衡量子場理論で定式化できる、実時間におけるよく定義された初期値問題である。 二粒子既約(2pi)量子実効作用の非摂動的枠組みを大規模n展開において次から次へと適用する。 また, 高温領域における格子上の古典統計場理論シミュレーションと比較した。 これにより, 実時間減衰率は, 従来のユークリッド (bounce) アプローチで得られた値に匹敵することを示した。 一般に、崩壊率は時間に依存する。 ダイナミクスをより包括的に説明するために、非平衡遷移過程中に凸となる時間依存の有効ポテンシャルを抽出する。 真空初期条件の1点と2点の相関関数に対する量子進化方程式を解くことにより、量子補正は古典統計近似では捉えられない遷移に繋がることを示した。

We investigate false vacuum decay of a relativistic scalar field initialized in the metastable minimum of an asymmetric double-well potential. The transition to the true ground state is a well-defined initial-value problem in real time, which can be formulated in nonequilibrium quantum field theory on a closed time path. We employ the non-perturbative framework of the two-particle irreducible (2PI) quantum effective action at next-to-leading order in a large-N expansion. We also compare to classical-statistical field theory simulations on a lattice in the high-temperature regime. By this, we demonstrate that the real-time decay rates are comparable to those obtained from the conventional Euclidean (bounce) approach. In general, we find that the decay rates are time dependent. For a more comprehensive description of the dynamics, we extract a time-dependent effective potential, which becomes convex during the nonequilibrium transition process. By solving the quantum evolution equations for the one- and two-point correlation functions for vacuum initial conditions, we demonstrate that quantum corrections can lead to transitions that are not captured by classical-statistical approximations.
翻訳日:2024-01-09 22:48:15 公開日:2024-01-07
# stamp:stein変分勾配降下による微分可能タスクと動作計画

STAMP: Differentiable Task and Motion Planning via Stein Variational Gradient Descent ( http://arxiv.org/abs/2310.01775v3 )

ライセンス: Link先を確認
Yewon Lee, Philip Huang, Krishna Murthy Jatavallabhula, Andrew Z. Li, Fabian Damken, Eric Heiden, Kevin Smith, Derek Nowrouzezahrai, Fabio Ramos, Florian Shkurti(参考訳) ツールの使用や部品の組み立てなど、多くの操作タスクの計画には、しばしば象徴的および幾何学的推論が必要である。 タスク・アンド・モーション・プランニング (tamp) アルゴリズムは通常、高レベルなタスクシーケンス上で木探索を行い、キネマティックかつダイナミックな実行可能性をチェックすることでこれらの問題を解決する。 ツリーの幅は、可能なアクションやオブジェクトの数で指数関数的に増加するので、これは非効率である。 本稿では,連続領域における離散・連続的タンプ問題を推論問題に緩和する新しいアプローチを提案する。 提案手法であるstein task and motion planning (stamp) は,並列微分可能な物理シミュレータから勾配を得ることにより,stein変分勾配と呼ばれる勾配に基づく変分推定アルゴリズムを用いてこの問題を解く。 離散変数に緩和を導入し、並列化を活用し、ベイジアン推論問題としてTAMPにアプローチすることにより、1つの最適化ランで複数の多様なプランを効率的に見つけることができる。 2つのTAMP問題に対して本手法を実証し,既存のTAMPベースラインと比較した。

Planning for many manipulation tasks, such as using tools or assembling parts, often requires both symbolic and geometric reasoning. Task and Motion Planning (TAMP) algorithms typically solve these problems by conducting a tree search over high-level task sequences while checking for kinematic and dynamic feasibility. This can be inefficient as the width of the tree can grow exponentially with the number of possible actions and objects. In this paper, we propose a novel approach to TAMP that relaxes discrete-and-continuous TAMP problems into inference problems on a continuous domain. Our method, Stein Task and Motion Planning (STAMP) subsequently solves this new problem using a gradient-based variational inference algorithm called Stein Variational Gradient Descent, by obtaining gradients from a parallelized differentiable physics simulator. By introducing relaxations to the discrete variables, leveraging parallelization, and approaching TAMP as an Bayesian inference problem, our method is able to efficiently find multiple diverse plans in a single optimization run. We demonstrate our method on two TAMP problems and benchmark them against existing TAMP baselines.
翻訳日:2024-01-09 22:46:47 公開日:2024-01-07
# LLMとBoWによる授業支援の自動評価:グローバル予測と特定のフィードバックを結びつける

Automated Evaluation of Classroom Instructional Support with LLMs and BoWs: Connecting Global Predictions to Specific Feedback ( http://arxiv.org/abs/2310.01132v2 )

ライセンス: Link先を確認
Jacob Whitehill and Jennifer LoCasale-Crouch(参考訳) 教師により具体的で頻繁で行動可能な授業フィードバックを提供することを目的として,広範言語モデル(LLM)を用いて,広く使用されている観察プロトコルであるCLLASS(CLassroom Assessment Scoring System)の「インストラクショナルサポート」ドメインスコアを推定する方法について検討した。 我々は,メタのLlama2のゼロショットプロンプトと/または古典的なBag of Words(BoW)モデルを用いて,教師の発話(OpenAIのWhisperで自動的に書き起こされる)の個別発話を教育支援の有無で分類する機械学習アーキテクチャを設計する。 そして、これらの発話レベル判定を15分間の観察セッション全体にわたって集約し、グローバルクラススコアを推定する。 Experiments on two CLASS-coded datasets of toddler and pre-kindergarten classrooms indicate that (1) automatic CLASS Instructional Support estimation accuracy using the proposed method (Pearson $R$ up to $0.47$) approaches human inter-rater reliability (up to $R=0.55$); (2) LLMs yield slightly greater accuracy than BoW for this task, though the best models often combined features extracted from both LLM and BoW; and (3) for classifying individual utterances, there is still room for improvement of automated methods compared to human-level judgments. 最後に,モデルの出力を発話レベルで可視化し,どの発話が最も肯定的か否定的にクラス次元に関連付けられたかを教師に説明可能なフィードバックを与える方法を示す。

With the aim to provide teachers with more specific, frequent, and actionable feedback about their teaching, we explore how Large Language Models (LLMs) can be used to estimate ``Instructional Support'' domain scores of the CLassroom Assessment Scoring System (CLASS), a widely used observation protocol. We design a machine learning architecture that uses either zero-shot prompting of Meta's Llama2, and/or a classic Bag of Words (BoW) model, to classify individual utterances of teachers' speech (transcribed automatically using OpenAI's Whisper) for the presence of Instructional Support. Then, these utterance-level judgments are aggregated over an entire 15-min observation session to estimate a global CLASS score. Experiments on two CLASS-coded datasets of toddler and pre-kindergarten classrooms indicate that (1) automatic CLASS Instructional Support estimation accuracy using the proposed method (Pearson $R$ up to $0.47$) approaches human inter-rater reliability (up to $R=0.55$); (2) LLMs yield slightly greater accuracy than BoW for this task, though the best models often combined features extracted from both LLM and BoW; and (3) for classifying individual utterances, there is still room for improvement of automated methods compared to human-level judgments. Finally, (4) we illustrate how the model's outputs can be visualized at the utterance level to provide teachers with explainable feedback on which utterances were most positively or negatively correlated with specific CLASS dimensions.
翻訳日:2024-01-09 22:46:02 公開日:2024-01-07
# 学習パラメトリック確率モデルの確率的熱力学

Stochastic Thermodynamics of Learning Parametric Probabilistic Models ( http://arxiv.org/abs/2310.19802v4 )

ライセンス: Link先を確認
Shervin Sadat Parsi(参考訳) 我々は,PPM(Parametric Probabilistic Models)の時間進化として,本質的には熱力学過程を描画する機械学習問題を定式化した。 我々の主な動機は、情報の熱力学の豊富なツールボックスを活用し、確率モデルを学ぶ際の情報理論の内容を評価することである。 まず,記憶情報(m-info)と学習情報(l-info)の2つの情報理論指標を導入し,ppmの学習過程における情報の流れを追跡する。 そして,学習過程におけるL-infoの蓄積がエントロピー生成と関連し,パラメータが熱貯水池として機能し,M-infoの形で学習情報を収集することを示した。

We have formulated a family of machine learning problems as the time evolution of Parametric Probabilistic Models (PPMs), inherently rendering a thermodynamic process. Our primary motivation is to leverage the rich toolbox of thermodynamics of information to assess the information-theoretic content of learning a probabilistic model. We first introduce two information-theoretic metrics: Memorized-information (M-info) and Learned-information (L-info), which trace the flow of information during the learning process of PPMs. Then, we demonstrate that the accumulation of L-info during the learning process is associated with entropy production, and parameters serve as a heat reservoir in this process, capturing learned information in the form of M-info.
翻訳日:2024-01-09 22:38:16 公開日:2024-01-07
# 合成ボリューム拡張によるデータ分析の促進

Boosting Data Analytics With Synthetic Volume Expansion ( http://arxiv.org/abs/2310.17848v2 )

ライセンス: Link先を確認
Xiaotong Shen, Yifei Liu, Rex Shen(参考訳) 生成人工知能(GAI)の基盤である合成データ生成は、データ不足とプライバシに対処し、前例のないパフォーマンスを実現することによって、データサイエンスのパラダイムシフトを示す。 合成データが卓越するにつれて、生データと比較して合成データに適用した場合の統計手法の精度に関する疑問が生じる。 本稿では、Syn(Syn)フレームワークについて紹介する。 このフレームワークは、グラフ拡散やGPT(Generative Pre-trained Transformer)モデルのような高度なモデルによって生成される高忠実な合成データに統計的手法を用いる。 これらのモデルは生データに基づいて訓練され、知識伝達を通じて関連する研究から洞察を得てさらに強化される。 合成データに対する統計的手法の誤差は、最初は追加の合成データによって減少するが、最終的には増加するか高くなる可能性がある。 この現象は、生データ分布を複製する複雑さに根ざし、特定のエラーメトリクスによって決定される合成データのサイズにおける最適なしきい値である「反射点」を強調する。 3つのケーススタディ – テキストの感情分析、構造化データの予測モデリング、表形式のデータの推論 – を通じて、このフレームワークが従来のものよりも有効であることを示す。 我々は,データサイエンスにおける合成データ生成の変換可能性について,予測と仮説テストの勾配向上など,様々な統計的手法を増幅する可能性を強調した。

Synthetic data generation, a cornerstone of Generative Artificial Intelligence (GAI), signifies a paradigm shift in data science by addressing data scarcity and privacy while enabling unprecedented performance. As synthetic data gains prominence, questions arise concerning the accuracy of statistical methods when applied to synthetic data compared to raw data. This article introduces the Synthetic Data Generation for Analytics (Syn) framework. This framework employs statistical methods on high-fidelity synthetic data generated by advanced models such as tabular diffusion and Generative Pre-trained Transformer (GPT) models. These models, trained on raw data, are further enhanced with insights from pertinent studies through knowledge transfer. A significant discovery within this framework is the generational effect: the error of a statistical method on synthetic data initially diminishes with additional synthetic data but may eventually increase or plateau. This phenomenon, rooted in the complexities of replicating raw data distributions, highlights a "reflection point" - an optimal threshold in the size of synthetic data determined by specific error metrics. Through three case studies - sentiment analysis of texts, predictive modeling of structured data, and inference in tabular data - we demonstrate the effectiveness of this framework over traditional ones. We underline its potential to amplify various statistical methods, including gradient boosting for prediction and hypothesis testing, thereby underscoring the transformative potential of synthetic data generation in data science.
翻訳日:2024-01-09 22:36:55 公開日:2024-01-07
# テスト時間で学ぶ)ことを学ぶ

Learning to (Learn at Test Time) ( http://arxiv.org/abs/2310.13807v2 )

ライセンス: Link先を確認
Yu Sun, Xinhao Li, Karan Dalal, Chloe Hsu, Sanmi Koyejo, Carlos Guestrin, Xiaolong Wang, Tatsunori Hashimoto, Xinlei Chen(参考訳) 2つのネストループ(学習問題)で学習する学習として教師あり学習の問題を再構築する。 内ループは最終予測の前に各インスタンスで自己スーパービジョンで学習する。 外ループは、内部ループが使用する自己監督タスクを学習し、最終的な予測が改善する。 私たちの内ループは、内ループ学習者が線形モデルのみである場合の線形注意と、カーネル推定子である場合の自己アテンションと等価であることが判明した。 リニア層やセルフアテンション層と比較すると、トランスフォーマーの各層をインナーループに置き換えるので、アウターループはアーキテクチャのトレーニングに相当します。 インナーループ学習者がニューラルネットワークである場合、我々のアプローチは、224 x 224の原画素からFLOPの精度で画像ネットに線形注意を払ってトランスフォーマーをはるかに上回り、(正規の)トランスフォーマーは実行できない。

We reformulate the problem of supervised learning as learning to learn with two nested loops (i.e. learning problems). The inner loop learns on each individual instance with self-supervision before final prediction. The outer loop learns the self-supervised task used by the inner loop, such that its final prediction improves. Our inner loop turns out to be equivalent to linear attention when the inner-loop learner is only a linear model, and to self-attention when it is a kernel estimator. For practical comparison with linear or self-attention layers, we replace each of them in a transformer with an inner loop, so our outer loop is equivalent to training the architecture. When each inner-loop learner is a neural network, our approach vastly outperforms transformers with linear attention on ImageNet from 224 x 224 raw pixels in both accuracy and FLOPs, while (regular) transformers cannot run.
翻訳日:2024-01-09 22:34:43 公開日:2024-01-07
# ファクトレベルマスキングによる質問の明確化に関する実践的評価

Pragmatic Evaluation of Clarifying Questions with Fact-Level Masking ( http://arxiv.org/abs/2310.11571v2 )

ライセンス: Link先を確認
Matthew Toles, Yukun Huang, Zhou Yu, Luis Gravano(参考訳) 質問の明確化(ACQ)を問うことで有用な情報を導き出す能力は、質問応答(QA)のような推論タスクにおける現実の協調の重要な要素である。 しかし、既存の自然言語ACQ課題は、情報自体の価値ではなく、単語重複に基づいて世代を評価する。 単語重複は、多くの異なる質問が与えられた状況で有用であり、一つの質問を多くの異なる方法で表現できるため、しばしば質問生成の不適切な指標である。 代わりに,検索した情報の価値に基づいて質問を実用的に評価することを提案する。 ここでは,自然言語の実践的質問(PACQ)の定義と枠組みについて述べる。 また,特定の批判的事実を省略して,自然言語データセットを自己教師付きpacqデータセットに変換する手法であるfact-level masking(flm)を提案する。 最後に、FLMを用いてHotpotQAデータセットからPACQデータセットを生成し、その上にいくつかのゼロショット言語モデルを評価する。 実験の結果,現在のゼロショットモデルでは,人間のアノテータと比較して有用な情報を取得する質問に苦慮していることがわかった。 これらの結果は、FLMデータセットとPACQフレームワークを客観的に評価し、質問生成やその他の言語モデルを改善する機会を示す。

The ability to derive useful information by asking clarifying questions (ACQ) is an important element of real life collaboration on reasoning tasks, such as question answering (QA). Existing natural language ACQ challenges, however, evaluate generations based on word overlap rather than the value of the information itself. Word overlap is often an inappropriate metric for question generation since many different questions could be useful in a given situation, and a single question can be phrased many different ways. Instead, we propose evaluating questions pragmatically based on the value of the information they retrieve. Here we present a definition and framework for natural language pragmatic asking of clarifying questions (PACQ), the problem of generating questions that result in answers useful for a reasoning task. We also present fact-level masking (FLM), a procedure for converting natural language datasets into self-supervised PACQ datasets by omitting particular critical facts. Finally, we generate a PACQ dataset from the HotpotQA dataset using FLM and evaluate several zero-shot language models on it. Our experiments show that current zero-shot models struggle to ask questions that retrieve useful information, as compared to human annotators. These results demonstrate an opportunity to use FLM datasets and the PACQ framework to objectively evaluate and improve question generation and other language models.
翻訳日:2024-01-09 22:33:22 公開日:2024-01-07
# BadCLIP:マルチモーダルコントラスト学習におけるデュアルエンベッド型バックドアアタック

BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning ( http://arxiv.org/abs/2311.12075v2 )

ライセンス: Link先を確認
Siyuan Liang, Mingli Zhu, Aishan Liu, Baoyuan Wu, Xiaochun Cao, Ee-Chien Chang(参考訳) バックドア攻撃の研究は、モデル著作権保護と防御強化に有用である。 既存のバックドア攻撃は、CLIPのようなマルチモーダルなコントラスト学習モデルに感染したが、MCLモデルのための特別なバックドア防御によって容易に対処できる。 本稿では,バックドア攻撃が防御後にも有効であり続けるという現実シナリオにおける脅威を明らかにし,バックドア検出に抵抗し,微調整防御をモデル化する \emph{\toolns}攻撃を導入する。 これを実現するため,ベイズ支配の観点からモチベーションを導き,バックドア攻撃のための二重埋め込み誘導フレームワークを提案する。 具体的には,視覚的トリガパターンが埋め込み空間のテキスト的ターゲットセマンティクスに近似することを保証し,そのような自然なトリガパターンに対するバックドア学習によって引き起こされる微妙なパラメータ変動を検出することが困難である。 さらに、汚染されたサンプルを目標視機能に合わせるために視覚トリガーパターンを最適化し、クリーンな微調整によるバックドアアンラーニングを阻害する。 広範囲にわたる実験により,SOTAのバックドアディフェンスの存在下での攻撃は最先端のベースライン(+45.3% ASR)を著しく上回り,これらの緩和と検出戦略は事実上効果がないことが示された。 さらに,ダウンストリームタスクなど,より厳密なシナリオを効果的に攻撃する手法を提案する。 本稿では,マルチモーダル・コントラッシブ・ラーニングの実践的適用に伴う潜在的な脅威に対する認識を高め,より堅牢な防御機構の開発を促進すると信じている。

Studying backdoor attacks is valuable for model copyright protection and enhancing defenses. While existing backdoor attacks have successfully infected multimodal contrastive learning models such as CLIP, they can be easily countered by specialized backdoor defenses for MCL models. This paper reveals the threats in this practical scenario that backdoor attacks can remain effective even after defenses and introduces the \emph{\toolns} attack, which is resistant to backdoor detection and model fine-tuning defenses. To achieve this, we draw motivations from the perspective of the Bayesian rule and propose a dual-embedding guided framework for backdoor attacks. Specifically, we ensure that visual trigger patterns approximate the textual target semantics in the embedding space, making it challenging to detect the subtle parameter variations induced by backdoor learning on such natural trigger patterns. Additionally, we optimize the visual trigger patterns to align the poisoned samples with target vision features in order to hinder the backdoor unlearning through clean fine-tuning. Extensive experiments demonstrate that our attack significantly outperforms state-of-the-art baselines (+45.3% ASR) in the presence of SoTA backdoor defenses, rendering these mitigation and detection strategies virtually ineffective. Furthermore, our approach effectively attacks some more rigorous scenarios like downstream tasks. We believe that this paper raises awareness regarding the potential threats associated with the practical application of multimodal contrastive learning and encourages the development of more robust defense mechanisms.
翻訳日:2024-01-09 22:26:22 公開日:2024-01-07
# 分散ベイズ学習における非同期局所計算

Asynchronous Local Computations in Distributed Bayesian Learning ( http://arxiv.org/abs/2311.03496v2 )

ライセンス: Link先を確認
Kinjal Bhar, He Bai, Jemin George, Carl Busart(参考訳) 機械学習(ML)の分野がセンサネットワークやロボット工学、その他多くのマルチエージェントシステムにまで拡大しているため、推論アルゴリズムの分散展開は多くの注目を集めている。 これらのアルゴリズムは、複数のエージェントが収集した分散データから未知のパラメータを協調的に学習する。 このようなアルゴリズムには、エージェント内計算とエージェント間通信という2つの競合する側面がある。 従来、アルゴリズムは両方を同期的に実行するように設計されている。 しかしながら、ある状況では、信頼できない、時間を要する、あるいはリソースを消費する、といった理由で、コミュニケーションチャネルの粗悪な使用が必要である。 本稿では,高速計算と通信オーバヘッドを同時に低減するゴシップ型非同期通信を提案する。 連続するエージェント間通信間のアクティブエージェントによる複数の(局所)エージェント内計算の効果を解析した。 局所計算では,unadjusted langevin algorithm (ula) mcmcによるベイズサンプリングを用いる。 通信は、連結グラフ(例えば、分散学習)上で行われると仮定されるが、結果は、中央サーバ(例えば、連合学習)があるコーディネートされた通信に拡張することができる。 我々は理論的にその過程の収束率を定量化する。 提案アルゴリズムの有効性を示すために,実世界のデータセットと同様に玩具問題に対するシミュレーションを行い,分類タスクを行うためのmlモデルを訓練する。 我々は、特に低データ範囲において、高速な初期収束と性能精度の向上を観察する。 UCI MLレポジトリのガンマ望遠鏡とmHealthデータセットで,それぞれ平均78%,90%以上の分類精度を達成した。

Due to the expanding scope of machine learning (ML) to the fields of sensor networking, cooperative robotics and many other multi-agent systems, distributed deployment of inference algorithms has received a lot of attention. These algorithms involve collaboratively learning unknown parameters from dispersed data collected by multiple agents. There are two competing aspects in such algorithms, namely, intra-agent computation and inter-agent communication. Traditionally, algorithms are designed to perform both synchronously. However, certain circumstances need frugal use of communication channels as they are either unreliable, time-consuming, or resource-expensive. In this paper, we propose gossip-based asynchronous communication to leverage fast computations and reduce communication overhead simultaneously. We analyze the effects of multiple (local) intra-agent computations by the active agents between successive inter-agent communications. For local computations, Bayesian sampling via unadjusted Langevin algorithm (ULA) MCMC is utilized. The communication is assumed to be over a connected graph (e.g., as in decentralized learning), however, the results can be extended to coordinated communication where there is a central server (e.g., federated learning). We theoretically quantify the convergence rates in the process. To demonstrate the efficacy of the proposed algorithm, we present simulations on a toy problem as well as on real world data sets to train ML models to perform classification tasks. We observe faster initial convergence and improved performance accuracy, especially in the low data range. We achieve on average 78% and over 90% classification accuracy respectively on the Gamma Telescope and mHealth data sets from the UCI ML repository.
翻訳日:2024-01-09 22:22:48 公開日:2024-01-07
# 量子計算力学へ向けて

Towards Quantum Computational Mechanics ( http://arxiv.org/abs/2312.03791v2 )

ライセンス: Link先を確認
Burigede Liu, Michael Ortiz, Fehmi Cirak(参考訳) 量子コンピュータの出現は、古典的なデジタルコンピュータとは全く異なる物理原理と抽象化に基づいており、ゲームを変える効率と計算性能をもたらす可能性のある新しいコンピューティングパラダイムを創り出した。 具体的には、量子システム全体の状態を同時に進化させる能力は、量子並列性と干渉をもたらす。 これらの展望にもかかわらず、量子コンピューティングを計算力学の問題に耐える機会は、ほとんど未開拓のままである。 本研究では, 古典的計算における-$\mathcal{o}((\log n)^c)$ と-$\mathcal{o}(n^c)$ との相同化における代表体積要素 (rve) 問題を解くために量子コンピューティングが実際にどのように用いられるかを実証する。 このように、我々の量子RVEソルバは古典的解法に対して指数加速度を達成し、並列マルチスケールコンピューティングを実用性に近づける。 提案した量子RVEソルバは、均一な参照材料に対する固定点反復や高速フーリエ変換(FFT)といった従来のアルゴリズムを組み合わせる。 しかし、これらのアルゴリズムの量子コンピューティングの改革には、基本的なパラダイムシフトと古典的な実装の完全な再考と見直しが必要である。 量子フーリエ変換(qft)、多項式の量子符号化、関数の古典的な区分的チェビシェフ近似、固定点反復を実装する補助アルゴリズムなどいくつかの手法を採用し、量子コンピュータ上でのrveソルバの効率的な実装が可能であることを示す。 さらに理論的な証明と数値的な証拠を提供し、提案する解法で期待される〜$ \mathcal{o} \left ((\log n)^c \right)$ の複雑性を確認する。

The advent of quantum computers, operating on entirely different physical principles and abstractions from those of classical digital computers, sets forth a new computing paradigm that can potentially result in game-changing efficiencies and computational performance. Specifically, the ability to simultaneously evolve the state of an entire quantum system leads to quantum parallelism and interference. Despite these prospects, opportunities to bring quantum computing to bear on problems of computational mechanics remain largely unexplored. In this work, we demonstrate how quantum computing can indeed be used to solve representative volume element (RVE) problems in computational homogenisation with polylogarithmic complexity of~$ \mathcal{O}((\log N)^c)$, compared to~$\mathcal{O}(N^c)$ in classical computing. Thus, our quantum RVE solver attains exponential acceleration with respect to classical solvers, bringing concurrent multiscale computing closer to practicality. The proposed quantum RVE solver combines conventional algorithms such as a fixed-point iteration for a homogeneous reference material and the Fast Fourier Transform (FFT). However, the quantum computing reformulation of these algorithms requires a fundamental paradigm shift and a complete rethinking and overhaul of the classical implementation. We employ or develop several techniques, including the Quantum Fourier Transform (QFT), quantum encoding of polynomials, classical piecewise Chebyshev approximation of functions and an auxiliary algorithm for implementing the fixed-point iteration and show that, indeed, an efficient implementation of RVE solvers on quantum computers is possible. We additionally provide theoretical proofs and numerical evidence confirming the anticipated~$ \mathcal{O} \left ((\log N)^c \right) $ complexity of the proposed solver.
翻訳日:2024-01-09 22:13:29 公開日:2024-01-07
# MobileNetV2を用いた乳癌腫瘍の分類 : 画像強度, エラー軽減, ストリーム駆動リアルタイム展開の詳細な検討

Enhanced Breast Cancer Tumor Classification using MobileNetV2: A Detailed Exploration on Image Intensity, Error Mitigation, and Streamlit-driven Real-time Deployment ( http://arxiv.org/abs/2312.03020v2 )

ライセンス: Link先を確認
Aaditya Surya, Aditya Shah, Jarnell Kabore, Subash Sasikumar(参考訳) 本研究では,1576種類の超音波画像(265例,891例,悪性420例)のデータセットを用いて,乳がん腫瘍分類のためのgoogleのmobilenetv2に基づく洗練されたトランスファー学習モデルを提案する。 精度は 0.82、精度は 0.83、リコールは 0.81、ROC-AUCは 0.94、PR-AUCは 0.88、MCCは 0.74 である。 画像強度分布と誤分類誤差を調べ、将来のアプリケーションに改善をもたらす。 データセットの不均衡に対処するため、研究は一般化可能なモデルを保証する。 この研究は、Walid Al-Dhabyaniらによって編纂されたエジプトのカイロのBaheya Hospitalのデータセットを用いて、MobileNetV2の医療画像における可能性を強調し、腫瘍学における診断精度の向上を目指している。 さらに,リアルタイム腫瘍分類のためのstreamlitベースの展開について検討し,mobilenetv2の医療画像への適用性を示し,腫瘍診断における今後の研究のためのベンチマークを設定した。

This research introduces a sophisticated transfer learning model based on Google's MobileNetV2 for breast cancer tumor classification into normal, benign, and malignant categories, utilizing a dataset of 1576 ultrasound images (265 normal, 891 benign, 420 malignant). The model achieves an accuracy of 0.82, precision of 0.83, recall of 0.81, ROC-AUC of 0.94, PR-AUC of 0.88, and MCC of 0.74. It examines image intensity distributions and misclassification errors, offering improvements for future applications. Addressing dataset imbalances, the study ensures a generalizable model. This work, using a dataset from Baheya Hospital, Cairo, Egypt, compiled by Walid Al-Dhabyani et al., emphasizes MobileNetV2's potential in medical imaging, aiming to improve diagnostic precision in oncology. Additionally, the paper explores Streamlit-based deployment for real-time tumor classification, demonstrating MobileNetV2's applicability in medical imaging and setting a benchmark for future research in oncology diagnostics.
翻訳日:2024-01-09 22:12:15 公開日:2024-01-07
# faultformer: 適応軸受故障分類のためのプリトレーニングトランス

FaultFormer: Pretraining Transformers for Adaptable Bearing Fault Classification ( http://arxiv.org/abs/2312.02380v2 )

ライセンス: Link先を確認
Anthony Zhou and Amir Barati Farimani(参考訳) グローバル消費の成長は、スマート製造とマシンヘルスモニタリングへのディープラーニングの重要な応用を動機付けた。 特に、振動データは、機械の健康と予測の保守に関する有意義な洞察を提供する、リッチで信頼性の高い情報源を提供する。 本研究では,変圧器モデルに基づくベアリング故障の同定のための事前学習および微調整フレームワークを提案する。 特に,異なるトークン化とデータ拡張戦略について検討し,パフォーマンスの向上と技術評価の達成について述べる。 さらに,振動信号に対するマスク付き自己教師付き事前学習とその低データレジーム,タスク適応,データセット適応への応用を示す。 プレトレーニングは、不足した未確認のトレーニングサンプルの10方向軸受分類のパフォーマンスを向上させることができる。 トランスフォーマーモデルは、事前トレーニングディストリビューション以外の障害クラスを微調整する場合の事前トレーニングにもメリットがある。 最後に、事前訓練されたトランスフォーマーは、数ショットで異なるデータセットに一般化できることが示されている。 これは、モデルがさまざまな軸受、障害、機械にまたがって事前訓練され、特定の製造業のニーズに合った新しいデータ収集アプリケーションに迅速にデプロイできる新しいパラダイムを導入している。

The growth of global consumption has motivated important applications of deep learning to smart manufacturing and machine health monitoring. In particular, vibration data offers a rich and reliable source to provide meaningful insights into machine health and predictive maintenance. In this work, we present pretraining and fine-tuning frameworks for identifying bearing faults based on transformer models. In particular, we investigate different tokenization and data augmentation strategies to improve performance and reach state of the art accuracies. Furthermore, we demonstrate masked self-supervised pretraining for vibration signals and its application to low-data regimes, task adaptation, and dataset adaptation. Pretraining is able to improve performance on 10-way bearing classification on scarce, unseen training samples. Transformer models also benefit from pretraining when fine-tuning on fault classes outside of the pretraining distribution. Lastly, pretrained transformers are shown to be able to generalize to a different dataset in a few-shot manner. This introduces a new paradigm where models can be pretrained across different bearings, faults, and machinery and quickly deployed to new, data-scarce applications to suit specific manufacturing needs.
翻訳日:2024-01-09 22:11:52 公開日:2024-01-07
# 超ポリジウム構造

Hyperpolyadic structures ( http://arxiv.org/abs/2312.01366v3 )

ライセンス: Link先を確認
Steven Duplij (University of M\"unster)(参考訳) 新しい除算代数のクラスである超多進代数(hyperpolyadic algebras)を導入し、新しい要素を考慮せずに二元除算代数 $\mathbb{r}$, $\mathbb{c}$, $\mathbb{h}$, $\mathbb{o}$ に対応する。 まず,前述した行列多元化法を用いて代数次元を増加させる。 得られた代数は二元加法と非単元 $n$-ary 乗法に従い、それらの部分代数は除算 $n$-ary 代数である。 各可逆元に対して、新しい乗法ノルムを定義する。 我々は,単項行列の連続埋め込みに対応するケイリー・ディクソン構成の多進類比を定義する。 すると、より次元の大きい二項除算代数に対応する別の数列$n$-ary多元環が得られ、それは中間のアーリティーに比例する。 第二に、任意のベクトル空間内のベクトルの新しい多進積が定義され、ベクトル化を用いて多元化手順と一致する。 導入された積で与えられるベクトル空間は、ある可逆条件の下で除算代数である多進代数となり、その構造定数が計算される。 第3に,半次元の非単元的非単元的三元除算環を導く新しい反復過程(これを「虚塔」と呼ぶ)を提案し,それらを「半四元数」と「半陽数」と呼ぶ。 後者は二元割算代数の部分代数ではなく、異なるアーリティーを持つため、部分集合のみである。 それでも、それらは実際には三次分割代数であり、それは可除数とその非零元が可逆であるからである。 導入された「半四元数」ノルムの乗法から、2つの平方恒等式の総和の三元アナログを得る。 虚数的「半オクトニオン」の単項三元除算代数学が三元代数学であることを証明する。

We introduce a new class of division algebras, hyperpolyadic algebras, which correspond to the binary division algebras $\mathbb{R}$, $\mathbb{C}$, $\mathbb{H}$, $\mathbb{O}$ without considering new elements. First, we use the proposed earlier matrix polyadization procedure which increases the algebra dimension. The obtained algebras obey the binary addition and nonderived $n$-ary multiplication and their subalgebras are division $n$-ary algebras. For each invertible element we define a new multiplicative norm. We define a polyadic analog of the Cayley-Dickson construction which corresponds to the consequent embedding of monomial matrices. Then we obtain another series of $n$-ary algebras corresponding to the binary division algebras which have more dimension, that is proportional to intermediate arities. Second, a new polyadic product of vectors in any vector space is defined, which is consistent with the polyadization procedure by using vectorization. Endowed with the introduced product the vector space becomes a polyadic algebra which is a division algebra under some invertibility conditions, and it structure constants are computed. Third, we propose a new iterative process (we call it "imaginary tower"), which leads to nonunital nonderived ternary division algebras of half dimension, we call them "half-quaternions" and "half-octonions". The latter are not subalgebras of the binary division algebras, but subsets only, since they have different arity. Nevertheless, they are actually ternary division algebras, because allow division, and their nonzero elements are invertible. From the multiplicativity of the introduced "half-quaternion" norm we obtain the ternary analog of the sum of two squares identity. We prove that the introduced unitless ternary division algebra of imaginary "half-octonions" is ternary alternative.
翻訳日:2024-01-09 22:11:34 公開日:2024-01-07
# 初心者から専門家へ:医学知識のモデリングから一般LLMへ

From Beginner to Expert: Modeling Medical Knowledge into General LLMs ( http://arxiv.org/abs/2312.01040v3 )

ライセンス: Link先を確認
Qiang Li, Xiaoyan Yang, Haowen Wang, Qin Wang, Lei Liu, Junjie Wang, Yang Zhang, Mingyuan Chu, Sen Hu, Yicheng Chen, Yue Shen, Cong Fan, Wangshu Zhang, Teng Xu, Jinjie Gu, Jing Zheng, Guannan Zhang Ant Group(参考訳) 近年,大規模言語モデル(LLM)に基づく人工知能(AI)システムは,自然言語の理解と生成において顕著な能力を示している。 しかし、これらのモデルは、医学的知識に対する推論や、医師のような方法での医学的質問に答えるなど、センシティブな応用に関して大きな課題に直面している。 先行研究は、より一般的な医学知識を学習するためにモデルサイズ(>100B)を増大させることにより、この課題を克服しようとしたが、小型モデルサイズ((<100B)のLLMの改善の余地はまだ残っている。 本研究は,前訓練された一般llmモデル(antglm-10b)から医療初心者から医療専門家(antglm-med-10bと呼ばれる)に微調整し,一般医学知識注入,医療ドメイン命令チューニング,特定の医療タスク適応といった3段階の最適化手順を活用する。 1)医学領域,特に特定の医療業務において,事前訓練された一般LSMをどのように適応させるかを検討する。 2)最適化プロセスの各段階の大規模医療データセットを収集し,構築する。 これらのデータセットは、質問応答、医療推論、マルチチョイス質問、医療会話など、さまざまなデータタイプとタスクを包含する。 (3) 医学領域における多点質問に対して, LLM の推論能力を大幅に向上させる, 工学的促進のための新たな検証手法を提案する。 上記のアプローチを組み合わせることで、我々のAntGLM-Med-10BモデルはPubMedQA上でのLLMよりも優れる。

Recently, large language model (LLM) based artificial intelligence (AI) systems have demonstrated remarkable capabilities in natural language understanding and generation. However, these models face a significant challenge when it comes to sensitive applications, such as reasoning over medical knowledge and answering medical questions in a physician-like manner. Prior studies attempted to overcome this challenge by increasing the model size (>100B) to learn more general medical knowledge, while there is still room for improvement in LLMs with smaller-scale model sizes (<100B). In this work, we start from a pre-trained general LLM model (AntGLM-10B) and fine-tune it from a medical beginner towards a medical expert (called AntGLM-Med-10B), which leverages a 3-stage optimization procedure, i.e., general medical knowledge injection, medical domain instruction tuning, and specific medical task adaptation. Our contributions are threefold: (1) We specifically investigate how to adapt a pre-trained general LLM in medical domain, especially for a specific medical task. (2) We collect and construct large-scale medical datasets for each stage of the optimization process. These datasets encompass various data types and tasks, such as question-answering, medical reasoning, multi-choice questions, and medical conversations. (3) Specifically for multi-choice questions in the medical domain, we propose a novel Verification-of-Choice approach for prompting engineering, which significantly enhances the reasoning ability of LLMs. Remarkably, by combining the above approaches, our AntGLM-Med-10B model can outperform the most of LLMs on PubMedQA, including both general and medical LLMs, even when these LLMs have larger model size.
翻訳日:2024-01-09 22:10:44 公開日:2024-01-07
# 原文のパラフレーズ化」による高精度長文QA

"Paraphrasing The Original Text" Makes High Accuracy Long-Context QA ( http://arxiv.org/abs/2312.11193v6 )

ライセンス: Link先を確認
Yijiong Yu(参考訳) ほとんどのオープンソース生成言語モデルは、現在、コンテキストウィンドウが4k未満で、長いテキストに直面する際の能力を制限する。 長いコンテキストウィンドウを持つモデルでさえ、長いコンテキストの問題に対して十分な精度を保証できない。 この問題に取り組むために,我々は,トレーニングデータの観点から検討し,理論的に,長い文脈を扱う能力を改善するには,単に「長い」データではなく「効果的」が必要であることを実証する。 この知見に基づいて,「原文パラフレージング」タスクを用いて,既存のモデルのコンテキストウインドウを低コストかつ効果的な方法で32kに拡張する手法を提案する。 我々の微調整モデルは、比較スケールのモデルの中で、多文書QAにおける最先端の精度を実現する。 モデルとトレーニングデータは huggingface(https://huggingface.co/yuyijiong/qwen-14b-chat-yarn-32k)と wisemodel(https://wisemodel.cn/models/yuyijiong/qwen-14b-chat-yarn-32k)で利用可能である。

Most open-source generative language models currently have a context window of no more than 4k, limiting their ability when facing long text. Even models with longer context windows cannot guarantee satisfactory accuracy on long-context problems. To tackle this issue, we explore from the perspective of training data and theoretically demonstrate that improving the capability to handle long contexts requires "effective" rather than simply "long" data. Based on this insight, we propose using the "original text paraphrasing" task and successfully extend the context window of existing models to 32k through a low-cost and effective method. Our fine-tuned model achieves state-of-the-art accuracy in multi-document-QA among models of comparable scale. The model and training data have been made available on HuggingFace(https://huggingface.co/yuyijiong/Qwen-14b-chat-yarn-32k) and WiseModel(https://wisemodel.cn/models/yuyijiong/Qwen-14b-chat-yarn-32k).
翻訳日:2024-01-09 22:01:32 公開日:2024-01-07
# パターンを用いたシンボリック数値計画

Symbolic Numeric Planning with Patterns ( http://arxiv.org/abs/2312.09963v2 )

ライセンス: Link先を確認
Matteo Cardellini, Enrico Giunchiglia, and Marco Maratea(参考訳) 本稿では,線形数値計画問題に対する新しい手法であるシンボリックパターン計画法を提案する。 プランニング問題$\pi$、バウンド$n$、パターン -- 任意の一連のアクションとして定義される -- を考えると、バウンド$n$を、最先端のロールアップと緩和された$\exists$エンコーディングよりも少ない変数と/または節を持つ公式として見つけるという問題をエンコードします。 さらに重要なことは、任意の境界に対して、後者の2つのエンコーディングが有効な計画を見つけるのを許すが、我々の法則に従わないことを証明している。 実験面では、今年の国際計画コンペティション(IPC)に参加したものを含め、他の6つの計画システムについて検討し、今年のITC問題に関して、我々のプランナーであるPattyが驚くほど優れた比較パフォーマンスを示した。

In this paper, we propose a novel approach for solving linear numeric planning problems, called Symbolic Pattern Planning. Given a planning problem $\Pi$, a bound $n$ and a pattern -- defined as an arbitrary sequence of actions -- we encode the problem of finding a plan for $\Pi$ with bound $n$ as a formula with fewer variables and/or clauses than the state-of-the-art rolled-up and relaxed-relaxed-$\exists$ encodings. More importantly, we prove that for any given bound, it is never the case that the latter two encodings allow finding a valid plan while ours does not. On the experimental side, we consider 6 other planning systems -- including the ones which participated in this year's International Planning Competition (IPC) -- and we show that our planner Patty has remarkably good comparative performances on this year's IPC problems.
翻訳日:2024-01-09 22:00:29 公開日:2024-01-07
# RJUA-QA: 尿路学のための総合的なQAデータセット

RJUA-QA: A Comprehensive QA Dataset for Urology ( http://arxiv.org/abs/2312.09785v3 )

ライセンス: Link先を確認
Shiwei Lyu and Chenfei Chi and Hongbo Cai and Lei Shi and Xiaoyan Yang and Lei Liu and Xiang Chen and Deng Zhao and Zhiqiang Zhang and Xianguo Lyu and Ming Zhang and Fangzhou Li and Xiaowei Ma and Yue Shen and Jinjie Gu and Wei Xue and Yiran Huang(参考訳) RJUA-QAは質問応答(QA)と臨床証拠の推論のための新しい医療データセットであり、一般的な大言語モデル(LLM)と医学固有のLLMアプリケーションとのギャップを埋めるのに寄与する。 RJUA-QAは、現実的な臨床シナリオから派生したもので、信頼性の高い診断とアドバイスを生成する上でLLMを促進することを目的としている。 データセットには2,132の質問-文脈-回答ペアが含まれており、およそ25,000の診断記録と臨床事例に対応している。 このデータセットは67の一般的な尿器科疾患カテゴリをカバーしており、尿器科の医療サービスを求める人口の97.6\%を超える。 RJUA-QAの各データインスタンスは、(1)臨床症状や医療状況に関する質問を実際の患者に反映し、(2)総合的な専門知識を含む文脈、(3)診断結論と推奨検査指針を提供する医師の回答、(4)診断された臨床疾患を推奨診断結果とする医師のアドバイス、(5)医学検査のための勧告を提供する臨床アドバイスを含む。 RJUA-QAは、患者に対する臨床推論のための最初の医学的QAデータセットであり、診断結論と医学的検査アドバイスを得るためには、専門家レベルの知識と経験が必要である。 RJUA-QAデータセットを用いて,医療用および一般用両方のLCMの性能評価を行う。 我々のデータは \url{https://github.com/alipay/RJU_Ant_QA} で公開されています。

We introduce RJUA-QA, a novel medical dataset for question answering (QA) and reasoning with clinical evidence, contributing to bridge the gap between general large language models (LLMs) and medical-specific LLM applications. RJUA-QA is derived from realistic clinical scenarios and aims to facilitate LLMs in generating reliable diagnostic and advice. The dataset contains 2,132 curated Question-Context-Answer pairs, corresponding about 25,000 diagnostic records and clinical cases. The dataset covers 67 common urological disease categories, where the disease coverage exceeds 97.6\% of the population seeking medical services in urology. Each data instance in RJUA-QA comprises: (1) a question mirroring real patient to inquiry about clinical symptoms and medical conditions, (2) a context including comprehensive expert knowledge, serving as a reference for medical examination and diagnosis, (3) a doctor response offering the diagnostic conclusion and suggested examination guidance, (4) a diagnosed clinical disease as the recommended diagnostic outcome, and (5) clinical advice providing recommendations for medical examination. RJUA-QA is the first medical QA dataset for clinical reasoning over the patient inquiries, where expert-level knowledge and experience are required for yielding diagnostic conclusions and medical examination advice. A comprehensive evaluation is conducted to evaluate the performance of both medical-specific and general LLMs on the RJUA-QA dataset. Our data is are publicly available at \url{https://github.com/alipay/RJU_Ant_QA}.
翻訳日:2024-01-09 22:00:08 公開日:2024-01-07
# オンデマンドライドプーリングのための強化学習エージェントの固有報酬としての相互情報

Mutual Information as Intrinsic Reward of Reinforcement Learning Agents for On-demand Ride Pooling ( http://arxiv.org/abs/2312.15195v2 )

ライセンス: Link先を確認
Xianjie Zhang, Jiahao Sun, Chen Gong, Kai Wang, Yifei Cao, Hao Chen, Hao Chen, Yu Liu(参考訳) オンデマンド配車サービスの出現により、各車両は一度に複数の乗客にサービスを提供することができ、これによりドライバーの収入が増加し、乗客はオンデマンドのタクシーや車よりも低価格で走行できる(UberXやLyftのように、一度に1人の乗客だけが車に割り当てられる)。 オンデマンドのライドプーリングサービスは、多くの利益をもたらす可能性があるが、ライドプーリングサービスは、すべてのパーティー(乗客、ドライバー、集約企業、環境)の利益を最大化するために、明確に定義されたマッチング戦略が必要である。 既存のアルゴリズムは収益の最大化のみを考えることが多いため、異常な分布を持つリクエストが乗るのは難しい。 適切なリクエストの割り当てを確保しながら収益を上げるには、相乗りサービス会社(集約企業)にとって課題となる。 本稿では,都市を個別のディスパッチ領域に分割し,これらの地域における車両のディスパッチに強化学習(RL)アルゴリズムを用いる,配車作業のための配車フレームワークを提案する。 また,車両と順序分布の相互情報(mi)をrlアルゴリズムの固有報酬として考慮し,それらの分布の相関性を改善し,異常に分散した要求に対して乗車する可能性を確保する。 実世界のタクシーデータを用いた実験の結果、当社のフレームワークは既存のオンデマンド配車方式に比べて平均3倍の収益を上げることができることを示した。

The emergence of on-demand ride pooling services allows each vehicle to serve multiple passengers at a time, thus increasing drivers' income and enabling passengers to travel at lower prices than taxi/car on-demand services (only one passenger can be assigned to a car at a time like UberX and Lyft). Although on-demand ride pooling services can bring so many benefits, ride pooling services need a well-defined matching strategy to maximize the benefits for all parties (passengers, drivers, aggregation companies and environment), in which the regional dispatching of vehicles has a significant impact on the matching and revenue. Existing algorithms often only consider revenue maximization, which makes it difficult for requests with unusual distribution to get a ride. How to increase revenue while ensuring a reasonable assignment of requests brings a challenge to ride pooling service companies (aggregation companies). In this paper, we propose a framework for vehicle dispatching for ride pooling tasks, which splits the city into discrete dispatching regions and uses the reinforcement learning (RL) algorithm to dispatch vehicles in these regions. We also consider the mutual information (MI) between vehicle and order distribution as the intrinsic reward of the RL algorithm to improve the correlation between their distributions, thus ensuring the possibility of getting a ride for unusually distributed requests. In experimental results on a real-world taxi dataset, we demonstrate that our framework can significantly increase revenue up to an average of 3\% over the existing best on-demand ride pooling method.
翻訳日:2024-01-09 21:49:16 公開日:2024-01-07
# 前向きアルゴリズムによる畳み込みニューラルネットワークの学習

Training Convolutional Neural Networks with the Forward-Forward algorithm ( http://arxiv.org/abs/2312.14924v3 )

ライセンス: Link先を確認
Riccardo Scodellaro, Ajinkya Kulkarni, Frauke Alves, Matthias Schr\"oter(参考訳) 最近のディープニューラルネットワークによる画像解析の成功は、畳み込みニューラルネットワーク(CNN)によってほぼ完全に達成されている。 これらのcnnのトレーニングは、実際にはすべてのディープニューラルネットワークアーキテクチャにおいて、ネットワークの出力と望ましい結果を比較するバックプロパゲーションアルゴリズムを使用しており、ネットワークの重み付けを望ましい結果に向けてチューニングするために差が使用される。 2022年のプレプリントで、Geoffrey Hinton氏は、望ましい結果とネットワークの入力時のイメージを渡す別のトレーニング方法を提案した。 このフォーワードフォワード(FF)アルゴリズムは、現在まで完全に接続されたネットワークでしか使われていない。 本稿では,FFパラダイムをCNNに拡張する方法について述べる。 新たな空間拡張ラベリング手法を特徴とするFF学習CNNは,MNIST手書き桁データセットにおいて99.16%の分類精度を実現する。 提案アルゴリズムの性能に異なるハイパーパラメータがどう影響するかを示し、標準バックプロパゲーション手法を用いてトレーニングしたCNNと比較する。 さらに、クラスアクティベーションマップを用いて、FFアルゴリズムによってどの種類の機能が学習されるかを調べる。

The recent successes in analyzing images with deep neural networks are almost exclusively achieved with Convolutional Neural Networks (CNNs). The training of these CNNs, and in fact of all deep neural network architectures, uses the backpropagation algorithm where the output of the network is compared with the desired result and the difference is then used to tune the weights of the network towards the desired outcome. In a 2022 preprint, Geoffrey Hinton suggested an alternative way of training which passes the desired results together with the images at the input of the network. This so called Forward Forward (FF) algorithm has up to now only been used in fully connected networks. In this paper, we show how the FF paradigm can be extended to CNNs. Our FF-trained CNN, featuring a novel spatially-extended labeling technique, achieves a classification accuracy of 99.16% on the MNIST hand-written digits dataset. We show how different hyperparameters affect the performance of the proposed algorithm and compare the results with CNN trained with the standard backpropagation approach. Furthermore, we use Class Activation Maps to investigate which type of features are learnt by the FF algorithm.
翻訳日:2024-01-09 21:48:28 公開日:2024-01-07
# 防衛の強化: モデルレジリエンスのための橋渡し敵訓練と透かし

Elevating Defenses: Bridging Adversarial Training and Watermarking for Model Resilience ( http://arxiv.org/abs/2312.14260v2 )

ライセンス: Link先を確認
Janvi Thakkar, Giulio Zizzo, Sergio Maffeis(参考訳) 機械学習モデルは、多くの重要なアプリケーションで使用されているため、その完全性とオーナシップの確保が不可欠である。 最近の研究では、敵対的な訓練と透かしが相反する相互作用を持つことが観察されている。 本研究は,知的財産盗難の際,回避攻撃を防ぎ,確実なモデル検証を提供するため,透かし技術と敵対的トレーニングを統合する新しい枠組みを導入する。 防犯訓練と防犯用透かしを併用し,堅牢な透かしモデルの訓練を行った。 重要な直観は、対立を避けるために、敵の訓練に使用される予算よりも高い摂動予算を使用して敵のウォーターマークを生成することである。 我々は、MNISTとFashion-MNISTデータセットを用いて、様々なモデル盗難攻撃における提案手法の評価を行う。 その結果、ロバスト性性能において既存のベースラインを一貫して上回り、プルーニングと微調整除去攻撃に対するこの防御のレジリエンスをさらに証明した。

Machine learning models are being used in an increasing number of critical applications; thus, securing their integrity and ownership is critical. Recent studies observed that adversarial training and watermarking have a conflicting interaction. This work introduces a novel framework to integrate adversarial training with watermarking techniques to fortify against evasion attacks and provide confident model verification in case of intellectual property theft. We use adversarial training together with adversarial watermarks to train a robust watermarked model. The key intuition is to use a higher perturbation budget to generate adversarial watermarks compared to the budget used for adversarial training, thus avoiding conflict. We use the MNIST and Fashion-MNIST datasets to evaluate our proposed technique on various model stealing attacks. The results obtained consistently outperform the existing baseline in terms of robustness performance and further prove the resilience of this defense against pruning and fine-tuning removal attacks.
翻訳日:2024-01-09 21:47:11 公開日:2024-01-07
# ProS:Universal Cross-Domain Retrievalのための汎用知識の実証とシミュレーション

ProS: Prompting-to-simulate Generalized knowledge for Universal Cross-Domain Retrieval ( http://arxiv.org/abs/2312.12478v2 )

ライセンス: Link先を確認
Kaipeng Fang, Jingkuan Song, Lianli Gao, Pengpeng Zeng, Zhi-Qi Cheng, Xiyao Li, Heng Tao Shen(参考訳) ユニバーサルクロスドメイン検索(ucdr)の目標は、トレーニング中にデータが厳密に未知のドメインやカテゴリに属する可能性がある一般的なテストシナリオにおいて、堅牢なパフォーマンスを達成することである。 近年,プロンプトチューニングによる事前学習モデルでは,一般化能力が強く,数ショット学習やビデオテキスト検索などの下流課題においても注目に値する成果が得られている。 しかし、UCDRに直接適用しても、ドメインシフト(不慣れなドメインへの適応)とセマンティックシフト(未知のカテゴリへの移動)の両方を扱うのに十分ではないかもしれない。 そこで本研究では,UCDRにプロンプトチューニングを適用する最初の方法であるPrompting-to-Simulate (ProS)を提案する。 ProSは、Content-Aware Dynamic Prompts (CaDP)をシミュレートする2段階のプロセスを採用している。 具体的には、Prompt Units Learningの段階で、ドメインとセマンティック知識をマスク・アンド・アラインな方法で個別にキャプチャする2つのPrompt Unitを導入します。 次に,コンテントアウェアシミュレータ学習段階において,コンテントアウェアプロンプトシミュレータをシミュレートテストシナリオで訓練し,対応するcadpを生成する。 3つのベンチマークデータセットで行った広範囲な実験により,本手法は過剰なパラメータを伴わずに新たな最先端性能を達成できた。 このメソッドはhttps://anonymous.4open.science/r/prosで公開されている。

The goal of Universal Cross-Domain Retrieval (UCDR) is to achieve robust performance in generalized test scenarios, wherein data may belong to strictly unknown domains and categories during training. Recently, pre-trained models with prompt tuning have shown strong generalization capabilities and attained noteworthy achievements in various downstream tasks, such as few-shot learning and video-text retrieval. However, applying them directly to UCDR may not sufficiently to handle both domain shift (i.e., adapting to unfamiliar domains) and semantic shift (i.e., transferring to unknown categories). To this end, we propose Prompting-to-Simulate (ProS), the first method to apply prompt tuning for UCDR. ProS employs a two-step process to simulate Content-aware Dynamic Prompts (CaDP) which can impact models to produce generalized features for UCDR. Concretely, in Prompt Units Learning stage, we introduce two Prompt Units to individually capture domain and semantic knowledge in a mask-and-align way. Then, in Context-aware Simulator Learning stage, we train a Content-aware Prompt Simulator under a simulated test scenarios to produce the corresponding CaDP. Extensive experiments conducted on three benchmark datasets show that our method achieves new state-of-the-art performance without bringing excessive parameters. Our method is publicly available at https://anonymous.4open.science/r/ProS
翻訳日:2024-01-09 21:44:38 公開日:2024-01-07
# 距離集中と多様体効果による次元の呪いの解釈

Interpreting the Curse of Dimensionality from Distance Concentration and Manifold Effect ( http://arxiv.org/abs/2401.00422v2 )

ライセンス: Link先を確認
Dehua Peng, Zhipeng Gui, Huayi Wu(参考訳) 分布や異質性といったデータの特性は、次元が増加するにつれて複雑で直観に反するものになる。 この現象は次元の呪い(curse of dimensionality)と呼ばれ、低次元空間に持つ共通のパターンや関係(内部パターンや境界パターンなど)は高次元空間では無効となる。 これにより、回帰、分類、クラスタリングモデルやアルゴリズムのパフォーマンスが低下する。 次元の呪いは多くの原因によって引き起こされる。 本稿ではまず,高次元データの操作に関わる5つの課題を要約し,回帰,分類,クラスタリングタスクの失敗の原因について説明する。 次に, 次元の呪い, 距離集中, 多様体効果の2つの主な原因を理論的, 経験的分析によって考察する。 その結果,3つの典型的な距離,ミンコフスキー距離,チェビシェフ距離,コサイン距離を用いた近接探索(NNS)は次元が増加するにつれて意味がなくなることがわかった。 一方、データにはより冗長な特徴が組み込まれており、主成分分析(PCA)の分散寄与は数次元に歪められている。 次元の呪いの原因を解釈することで、現在のモデルやアルゴリズムの限界をよりよく理解し、高次元空間におけるデータ解析や機械学習タスクの性能を向上させることができる。

The characteristics of data like distribution and heterogeneity, become more complex and counterintuitive as the dimensionality increases. This phenomenon is known as curse of dimensionality, where common patterns and relationships (e.g., internal and boundary pattern) that hold in low-dimensional space may be invalid in higher-dimensional space. It leads to a decreasing performance for the regression, classification or clustering models or algorithms. Curse of dimensionality can be attributed to many causes. In this paper, we first summarize five challenges associated with manipulating high-dimensional data, and explains the potential causes for the failure of regression, classification or clustering tasks. Subsequently, we delve into two major causes of the curse of dimensionality, distance concentration and manifold effect, by performing theoretical and empirical analyses. The results demonstrate that nearest neighbor search (NNS) using three typical distance measurements, Minkowski distance, Chebyshev distance, and cosine distance, becomes meaningless as the dimensionality increases. Meanwhile, the data incorporates more redundant features, and the variance contribution of principal component analysis (PCA) is skewed towards a few dimensions. By interpreting the causes of the curse of dimensionality, we can better understand the limitations of current models and algorithms, and drive to improve the performance of data analysis and machine learning tasks in high-dimensional space.
翻訳日:2024-01-09 21:37:52 公開日:2024-01-07
# bidirectional temporal plan graph: より効率的なマルチエージェントパス発見計画実行のための切り替え可能なパスオーダの実現

Bidirectional Temporal Plan Graph: Enabling Switchable Passing Orders for More Efficient Multi-Agent Path Finding Plan Execution ( http://arxiv.org/abs/2401.00315v2 )

ライセンス: Link先を確認
Yifan Su, Rishi Veerapaneni, Jiaoyang Li(参考訳) マルチエージェントパス探索(mapf)問題は、共有環境で複数のエージェントの衝突のない経路を計画することである。 MAPFソルバの大多数は、エージェントが特定のタイミングで特定の場所に到着できるという仮定に依存している。 しかし、現実の実行の不確実性はエージェントをこの仮定から逸脱させ、衝突やデッドロックを引き起こす可能性がある。 先行研究は、エージェントが時間計画グラフ(tpg)に従い、mapfプランで定義されたすべての場所で一貫した通過順序を強制することでこの問題を解決する。 しかし,tpgが過度に厳しいのは,ある状況ではパス順序を満たすためにはエージェントが不必要に待つ必要があるため,実行時間が長くなるためである。 この問題を克服するために,双方向時間計画グラフ(bidirectional temporal plan graph, btpg)と呼ばれる新しいグラフィカル表現を導入する。 BTPGを最適化したBTPG-na\iveとBTPG-optimizedの2つのアルゴリズムを設計する。 実験の結果, BTPG は TPG に順調に優れ, 不要待ち時間が 8-20% 減少することがわかった。

The Multi-Agent Path Finding (MAPF) problem involves planning collision-free paths for multiple agents in a shared environment. The majority of MAPF solvers rely on the assumption that an agent can arrive at a specific location at a specific timestep. However, real-world execution uncertainties can cause agents to deviate from this assumption, leading to collisions and deadlocks. Prior research solves this problem by having agents follow a Temporal Plan Graph (TPG), enforcing a consistent passing order at every location as defined in the MAPF plan. However, we show that TPGs are overly strict because, in some circumstances, satisfying the passing order requires agents to wait unnecessarily, leading to longer execution time. To overcome this issue, we introduce a new graphical representation called a Bidirectional Temporal Plan Graph (BTPG), which allows switching passing orders during execution to avoid unnecessary waiting time. We design two anytime algorithms for constructing a BTPG: BTPG-na\"ive and BTPG-optimized. Experimental results show that following BTPGs consistently outperforms following TPGs, reducing unnecessary waits by 8-20%.
翻訳日:2024-01-09 21:37:29 公開日:2024-01-07
# GazeCLIP: テキストガイダンスによる視線推定の強化を目指す

GazeCLIP: Towards Enhancing Gaze Estimation via Text Guidance ( http://arxiv.org/abs/2401.00260v2 )

ライセンス: Link先を確認
Jun Wang, Hao Ruan, Mingjie Wang, Chuanghui Zhang, Huachun Li, Jun Zhou(参考訳) 過去10年間で、視覚的な視線の推定は、広い範囲のアプリケーションシナリオのおかげで、研究コミュニティ内で注目を集めている。 既存の推定手法は予測精度の向上に成功しているが、主に単一画像信号から視線方向を推定し、現在支配的なテキストガイダンスの潜在可能性を捨てている。 特に、画像合成や操作、大規模コントラスト言語-画像事前学習(CLIP:Contrastive Language- Image Pre-training)モデルの顕著な伝達性を活用するなど、視覚的言語協調は様々な視覚的タスクで広く研究されている。 それでも既存の視線推定手法は言語信号やCLIP特徴空間の先行情報によって伝達されるリッチな意味的手がかりを無視し、性能の低下をもたらす。 このギャップを解消するために,我々はテキスト・アイ協調プロトコルを深く掘り下げ,ガゼクリップと呼ばれる新しい視線推定フレームワークを導入する。 具体的には、言語記述生成器を複雑に設計し、粗い方向の手がかりを持つテキスト信号を生成する。 また、視線推定のためのテキスト-アイ対を特徴付けるCLIPベースのバックボーンを提示する。 これに続いて、異種入力間の相互関係をモデル化することを目的とした、きめ細かいマルチモーダル融合モジュールを実装した。 3つの挑戦的データセットに関する広範囲な実験は、従来のアプローチを上回り、最先端の推定精度を達成するガゼクリップの優位性を示している。

Over the past decade, visual gaze estimation has garnered growing attention within the research community, thanks to its wide-ranging application scenarios. While existing estimation approaches have achieved remarkable success in enhancing prediction accuracy, they primarily infer gaze directions from single-image signals and discard the huge potentials of the currently dominant text guidance. Notably, visual-language collaboration has been extensively explored across a range of visual tasks, such as image synthesis and manipulation, leveraging the remarkable transferability of large-scale Contrastive Language-Image Pre-training (CLIP) model. Nevertheless, existing gaze estimation approaches ignore the rich semantic cues conveyed by linguistic signals and priors in CLIP feature space, thereby yielding performance setbacks. In pursuit of making up this gap, we delve deeply into the text-eye collaboration protocol and introduce a novel gaze estimation framework in this paper, referred to as GazeCLIP. Specifically, we intricately design a linguistic description generator to produce text signals with coarse directional cues. Additionally, a CLIP-based backbone that excels in characterizing text-eye pairs for gaze estimation is presented. This is followed by the implementation of a fine-grained multi-modal fusion module aimed at modeling the interrelationships between heterogeneous inputs. Extensive experiments on three challenging datasets demonstrate the superiority of the proposed GazeCLIP which surpasses the previous approaches and achieves the state-of-the-art estimation accuracy.
翻訳日:2024-01-09 21:37:08 公開日:2024-01-07
# チューリングのテスト 美しい思考実験

Turing's Test, a Beautiful Thought Experiment ( http://arxiv.org/abs/2401.00009v2 )

ライセンス: Link先を確認
Bernardo Gon\c{c}alves(参考訳) 大きな言語モデルの後、チューリングテストとそのAIの価値に関する主張や疑問が復活した。 もしAIが量子物理学なら、現在までにいくつかの「Schr\」オジンジャーの猫が殺された可能性がある。 遅かれ早かれ、チューリングの美しい思考実験を歴史的に再現する時が来た。 本稿では, チューリングの1950年版に関するいくつかのオープンな質問に対して, 新しい考古学的資料を含む多くの証拠を提示し, チューリングのテストの価値の根本的疑問に対処する。

In the wake of large language models, there has been a resurgence of claims and questions about the Turing test and its value for AI, which are reminiscent of decades of practical "Turing" tests. If AI were quantum physics, by now several "Schr\"odinger's" cats could have been killed. Better late than never, it is time for a historical reconstruction of Turing's beautiful thought experiment. In this paper I present a wealth of evidence, including new archival sources, give original answers to several open questions about Turing's 1950 paper, and address the core question of the value of Turing's test.
翻訳日:2024-01-09 21:36:44 公開日:2024-01-07
# 流通シフト下における知識蒸留の再検討

Revisiting Knowledge Distillation under Distribution Shift ( http://arxiv.org/abs/2312.16242v2 )

ライセンス: Link先を確認
Songming Zhang and Ziyu Lyu and Xiaofeng Chen(参考訳) 知識蒸留は、大きなモデルから小さなモデルに知識を移し、最近目覚ましい成果を上げている。 しかし,分布変化に対する知識蒸留のメカニズムに関する研究は少ない。 分散シフトとは、トレーニングとテストフェーズの間のデータ分散のドリフトを指す。 本稿では, 移動状況における目的関数を再構成し, 知識蒸留のパラダイムを再考する。 実シナリオでは,多様性と相関シフトを含む2つの一般的な分布シフトに対して,知識蒸留をベンチマークするための統一的かつ体系的な枠組みを提案する。 評価ベンチマークは、アルゴリズム、データ駆動、および5つのベンチマークデータセットの最適化パースペクティブから30以上のメソッドをカバーする。 全体としては,学生モデルについて広範な実験を行う。 特に,複雑なアルゴリズムやデータ拡張は,多くの場合において限られた利益しか得られない。

Knowledge distillation transfers knowledge from large models into small models, and has recently made remarkable achievements. However, few studies has investigated the mechanism of knowledge distillation against distribution shift. Distribution shift refers to the data distribution drifts between training and testing phases. In this paper, we reconsider the paradigm of knowledge distillation by reformulating the objective function in shift situations. Under the real scenarios, we propose a unified and systematic framework to benchmark knowledge distillation against two general distributional shifts including diversity and correlation shift. The evaluation benchmark covers more than 30 methods from algorithmic, data-driven, and optimization perspectives for five benchmark datasets. Overall, we conduct extensive experiments on the student model. We reveal intriguing observations of poor teaching performance under distribution shifts; in particular, complex algorithms and data augmentation offer limited gains in many cases.
翻訳日:2024-01-09 21:34:20 公開日:2024-01-07
# Sports-QA: 複雑・専門スポーツのための大規模ビデオ質問回答ベンチマーク

Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex and Professional Sports ( http://arxiv.org/abs/2401.01505v2 )

ライセンス: Link先を確認
Haopeng Li, Andong Deng, Qiuhong Ke, Jun Liu, Hossein Rahmani, Yulan Guo, Bernt Schiele, Chen Chen(参考訳) 質問応答のためのスポーツビデオの推論は、プレイヤーのトレーニングや情報検索など、多くのアプリケーションで重要なタスクである。 しかし、関連するデータセットの欠如と、それがもたらす挑戦的な性質のために、このタスクは検討されていない。 ビデオ質問応答(VideoQA)のためのほとんどのデータセットは、専門的なアクション理解と微粒な動き分析を必要とするスポーツシナリオには適用できない日常ビデオの一般的および粗粒度の理解に焦点を当てている。 本稿では,スポーツビデオQAタスクに特化して設計されたSports-QAという最初のデータセットを紹介する。 Sports-QAデータセットには、説明、時系列、因果関係、反事実条件など、さまざまな種類の質問が含まれている。 さらに,スポーツビデオQAタスクの特徴に対処するために,質問応答のための時間情報の特定の尺度に自動的にフォーカスできるオートフォーカストランス (AFT) を提案する。 我々は,ベースライン研究や異なる手法の評価など,スポーツQAに関する広範な実験を行った。 その結果,AFTは最先端の性能を達成できた。

Reasoning over sports videos for question answering is an important task with numerous applications, such as player training and information retrieval. However, this task has not been explored due to the lack of relevant datasets and the challenging nature it presents. Most datasets for video question answering (VideoQA) focus mainly on general and coarse-grained understanding of daily-life videos, which is not applicable to sports scenarios requiring professional action understanding and fine-grained motion analysis. In this paper, we introduce the first dataset, named Sports-QA, specifically designed for the sports VideoQA task. The Sports-QA dataset includes various types of questions, such as descriptions, chronologies, causalities, and counterfactual conditions, covering multiple sports. Furthermore, to address the characteristics of the sports VideoQA task, we propose a new Auto-Focus Transformer (AFT) capable of automatically focusing on particular scales of temporal information for question answering. We conduct extensive experiments on Sports-QA, including baseline studies and the evaluation of different methods. The results demonstrate that our AFT achieves state-of-the-art performance.
翻訳日:2024-01-09 21:25:59 公開日:2024-01-07
# subquadratic timeにおけるスケーラブルネットワーク再構成

Scalable network reconstruction in subquadratic time ( http://arxiv.org/abs/2401.01404v2 )

ライセンス: Link先を確認
Tiago P. Peixoto(参考訳) ネットワーク再構成は、それらの結合(典型的には、グラフィカルモデルからの時系列または独立したサンプル)に条件づけられた結果の振る舞いに関する観測データのみを与えられた$N$ノード間の、観測されていないペアワイズ結合を決定することである。 この問題のために提案されたアルゴリズムのスケーラビリティに対する大きな障害は、一見避けられない二次的複雑性である$o(n^2)$であり、関心のあるネットワークのほとんどがスパースであり、いくつかの非ゼロ結合が$o(n)$であるという事実にもかかわらず、各ペアワイズ結合が少なくとも1回は検討されている要件に対応している。 本稿では,o(n^{3/2}\log n)$という大まかな上限値を持つデータ依存的複雑性を持つが,より典型的な対数線形複雑性であるo(n\log^2n)$を持つ,サブクアドラル時間でその結果を達成する,幅広いレコンストラクション問題に適用可能な一般アルゴリズムを提案する。 我々のアルゴリズムは, 確率的に第2の隣接探索に依拠し, 最良辺候補を高い確率で生成し, 余剰二次探索をバイパスする。 実際、我々のアルゴリズムは、2次ベースラインよりも桁違いに高速な性能を実現し、容易に並列化が可能となり、数十万のノードとエッジでネットワークを再構築することができる。

Network reconstruction consists in determining the unobserved pairwise couplings between $N$ nodes given only observational data on the resulting behavior that is conditioned on those couplings -- typically a time-series or independent samples from a graphical model. A major obstacle to the scalability of algorithms proposed for this problem is a seemingly unavoidable quadratic complexity of $O(N^2)$, corresponding to the requirement of each possible pairwise coupling being contemplated at least once, despite the fact that most networks of interest are sparse, with a number of non-zero couplings that is only $O(N)$. Here we present a general algorithm applicable to a broad range of reconstruction problems that achieves its result in subquadratic time, with a data-dependent complexity loosely upper bounded by $O(N^{3/2}\log N)$, but with a more typical log-linear complexity of $O(N\log^2N)$. Our algorithm relies on a stochastic second neighbor search that produces the best edge candidates with high probability, thus bypassing an exhaustive quadratic search. In practice, our algorithm achieves a performance that is many orders of magnitude faster than the quadratic baseline, allows for easy parallelization, and thus enables the reconstruction of networks with hundreds of thousands and even millions of nodes and edges.
翻訳日:2024-01-09 21:25:15 公開日:2024-01-07
# alifuse: コンピュータ支援診断のためのマルチモーダル医療データのアライメントとfusing

AliFuse: Aligning and Fusing Multi-modal Medical Data for Computer-Aided Diagnosis ( http://arxiv.org/abs/2401.01074v2 )

ライセンス: Link先を確認
Qiuhui Chen, Yi Hong(参考訳) 診断決定を行うために収集された医療データは、通常マルチモーダルであり、被験者の補完的な視点を提供する。 コンピュータ支援診断システムはマルチモーダル入力を歓迎するが、そのようなマルチモーダルデータを効果的に融合する方法は難しい課題であり、医学研究分野において多くの注目を集めている。 本稿では,マルチモーダル医療データの整合・融合のためのトランスフォーマーベースフレームワークであるAlifuseを提案する。 具体的には,画像と非構造化および構造化テキストを視覚および言語トークンに変換し,イントラモーダルおよびインターモーダル注意機構を用いて全画像および非画像データの全体表現を学習して分類を行う。 我々はAlifuseを用いてアルツハイマー病を分類し、5つのパブリックデータセット上で最先端のパフォーマンスを得る。 ソースコードは後でオンラインで入手できる。

Medical data collected for making a diagnostic decision are typically multi-modal and provide complementary perspectives of a subject. A computer-aided diagnosis system welcomes multi-modal inputs; however, how to effectively fuse such multi-modal data is a challenging task and attracts a lot of attention in the medical research field. In this paper, we propose a transformer-based framework, called Alifuse, for aligning and fusing multi-modal medical data. Specifically, we convert images and unstructured and structured texts into vision and language tokens, and use intramodal and intermodal attention mechanisms to learn holistic representations of all imaging and non-imaging data for classification. We apply Alifuse to classify Alzheimer's disease and obtain state-of-the-art performance on five public datasets, by outperforming eight baselines. The source code will be available online later.
翻訳日:2024-01-09 21:22:31 公開日:2024-01-07
# グローバルに最適化された磁場を有するスピン$1/2$ハイゼンベルク鎖における完全グラフ状態の生成

Generation of complete graph states in a spin-$1/2$ Heisenberg chain with a globally optimized magnetic field ( http://arxiv.org/abs/2401.01986v2 )

ライセンス: Link先を確認
X. X. Li, D. X. Li, X. Q. Shao(参考訳) グラフ状態は測定ベースの量子計算において重要な実用的価値を持ち、完全なグラフ状態は量子力学において例外的な性能を示す。 本研究では,時間変化磁場を受けるスピン=1/2$ハイゼンベルク$XX$チェーンを用いて,多粒子完全グラフ状態を生成する手法を提案する。 本手法は, 量子最適制御理論によって促進されるリアルタイム磁場形成により, 原子間の近接-近接相互作用にのみ依存する。 我々は特に中性原子系に注目し、$N=3\sim6$の多粒子完全グラフ状態は$0.25~\mu{\rm s}$以下で達成でき、${J}/{(2\pi)} = -2.443~{\rm MHz}$のホッピング振幅を利用する。 これは、双極子相互作用 rydberg 状態によってエンコードされる全てのスピン状態の等しい重み付けによって与えられる初期状態を仮定する。 さらに, 種々の実験的欠陥に徹底的に対処し, 原子振動, パルス振幅の変動, およびリドベルク状態の自然放出に対する我々のアプローチの堅牢性を示す。 ニュートラル原子系の実験装置における乱れの一般的な発生を考えると、このようなグラフ状態を達成するための一段階の戦略は、制御Zゲートに基づく技術よりも経験的に有効な代替手段として現れる。

Graph states possess significant practical value in measurement-based quantum computation, with complete graph states that exhibit exceptional performance in quantum metrology. In this work, we introduce a method for generating multiparticle complete graph states using a spin-$1/2$ Heisenberg $XX$ chain subjected to a time-varying magnetic field, which applies to a wide range of systems. Our scheme relies exclusively on nearest-neighbor interactions between atoms, with real-time magnetic field formation facilitated by quantum optimal control theory. We focus specifically on neutral-atom systems, finding that multiparticle complete graph states with $N=3\sim6$ can be achieved in less than $0.25~\mu{\rm s}$, utilizing a hopping amplitude of ${J}/{(2\pi)} = -2.443~{\rm MHz}$. This assumes an initial state provided by an equal-weight superposition of all spin states that are encoded by the dipolar interacting Rydberg states. Additionally, we thoroughly address various experimental imperfections and showcase the robustness of our approach against atomic vibrations, fluctuations in pulse amplitude, and spontaneous emission of Rydberg states. Considering the common occurrence of disturbances in experimental setups of neutral-atom systems, our one-step strategy for achieving such graph states emerges as a more empirically viable alternative to techniques based on controlled-Z gates.
翻訳日:2024-01-09 21:13:39 公開日:2024-01-07
# テキストデータセットにおける半教師あり学習アルゴリズムの検討

Investigating Semi-Supervised Learning Algorithms in Text Datasets ( http://arxiv.org/abs/2401.01843v2 )

ライセンス: Link先を確認
Himmet Toprak Kesgin, Mehmet Fatih Amasyali(参考訳) 大きなトレーニングデータセットを使用することで、ニューラルネットワークの一般化能力が向上する。 半教師付き学習(SSL)は、ラベル付きデータが少なく、ラベルなしデータが多い場合に有用である。 データ拡張を使用するSSLメソッドは、イメージデータセットで最も成功している。 対照的に、テキストは画像として一貫した拡張方法を持っていない。 したがって、拡張を使用するメソッドは、画像データにあるようなテキストデータでは有効ではない。 本研究では, 自己学習, 共学習, トライトレーニング, トリトレーニングなど, 拡張を必要としないsslアルゴリズムを比較した。 実験では、異なるタスクに4つの異なるテキストデータセットを使用しました。 実験的な質問をすることで,様々な視点からアルゴリズムを検証し,いくつかの改善を提案する。 アルゴリズムの中で、意見の一致によるトリトレーニングは、Oracleに最も近いパフォーマンスを示したが、パフォーマンスのギャップは、新しい半教師付きアルゴリズムや既存のメソッドの改善が必要であることを示している。

Using large training datasets enhances the generalization capabilities of neural networks. Semi-supervised learning (SSL) is useful when there are few labeled data and a lot of unlabeled data. SSL methods that use data augmentation are most successful for image datasets. In contrast, texts do not have consistent augmentation methods as images. Consequently, methods that use augmentation are not as effective in text data as they are in image data. In this study, we compared SSL algorithms that do not require augmentation; these are self-training, co-training, tri-training, and tri-training with disagreement. In the experiments, we used 4 different text datasets for different tasks. We examined the algorithms from a variety of perspectives by asking experiment questions and suggested several improvements. Among the algorithms, tri-training with disagreement showed the closest performance to the Oracle; however, performance gap shows that new semi-supervised algorithms or improvements in existing methods are needed.
翻訳日:2024-01-09 21:12:12 公開日:2024-01-07
# 次数36ドルの2次複素アダマール行列

Two-Unitary Complex Hadamard Matrices of Order $36$ ( http://arxiv.org/abs/2401.01671v2 )

ライセンス: Link先を確認
Wojciech Bruzda, Karol \.Zyczkowski(参考訳) 特定の行列から発する2つのユニタリ複素ハダマール行列(chm)の族を336ドルの大きさで構成する。 この軌道のすべての行列は部分転位と再シャッフルの操作の後にユニタリのままであり、CHM の傑出した部分集合となる。 これはオイラー問題の量子バージョンに対する新しい解を提供し、グレーコ・ラテン正方形の6次元体の各体は、位相が6番目の根の倍数である36ドルの士官の対称重ね合わせを含む。 これは、重ね合わせのすべての振幅が等しく、位相の集合が6ドルの要素のみからなる、既知の解を単純化する。 多次元パラメータ化は、潜在的実験的治療における柔軟性を高める。

A family of two-unitary complex Hadamard matrices (CHM) stemming from a particular matrix, of size $36$ is constructed. Every matrix in this orbit remains unitary after operations of partial transpose and reshuffling which makes it a distinguished subset of CHM. It provides a novel solution to the quantum version of the Euler problem, in which each field of the Graeco-Latin square of size six contains a symmetric superposition of all $36$ officers with phases being multiples of sixth root of unity. This simplifies previously known solutions as all amplitudes of the superposition are equal and the set of phases consists of $6$ elements only. Multidimensional parameterization allows for more flexibility in a potential experimental treatment.
翻訳日:2024-01-09 21:11:31 公開日:2024-01-07
# GOAT-Bench:ミームベースの社会的虐待による大規模マルチモーダルモデルの安全性

GOAT-Bench: Safety Insights to Large Multimodal Models through Meme-Based Social Abuse ( http://arxiv.org/abs/2401.01523v2 )

ライセンス: Link先を確認
Hongzhan Lin, Ziyang Luo, Bo Wang, Ruichao Yang and Jing Ma(参考訳) ソーシャルメディアの指数関数的な成長は、デジタル時代のあらゆる先例を超えて、情報の創造、普及、吸収の方法を大きく変えた。 残念なことに、この爆発はミームのオンライン乱用を大幅に増加させた。 ミームのネガティブな影響を評価することは、しばしば微妙で暗黙的な意味を持つため、特に難しい。 これを踏まえて、大規模マルチモーダルモデル(LMM)は、多様なマルチモーダルタスクを扱う際、顕著な能力のために注目の的となっている。 本研究の目的は,様々なLMM(例えば GPT-4V)が,ミームに現れる社会虐待の微妙な側面を識別し,それに対応する能力について,徹底的に検討することである。 我々は、暗黙のヘイトスピーチ、性差別、サイバーいじめなどのテーマをカプセル化した6K以上の様々なミームからなる包括的なミームベンチマークGOAT-Benchを紹介する。 GOAT-Benchを用いて、憎悪、悪行、攻撃性、皮肉、有害なコンテンツを正確に評価するLMMの能力を探求する。 LMMの幅広い実験により、現在のモデルは安全意識に欠けており、様々な形態の暗黙的虐待に敏感であることが明らかとなった。 この欠点は、安全な人工知能を実現する上で重要な障害であると考えています。 GOAT-Benchと関連するリソースはhttps://goatlmm.github.io/で公開されている。

The exponential growth of social media has profoundly transformed how information is created, disseminated, and absorbed, exceeding any precedent in the digital age. Regrettably, this explosion has also spawned a significant increase in the online abuse of memes. Evaluating the negative impact of memes is notably challenging, owing to their often subtle and implicit meanings, which are not directly conveyed through the overt text and imagery. In light of this, large multimodal models (LMMs) have emerged as a focal point of interest due to their remarkable capabilities in handling diverse multimodal tasks. In response to this development, our paper aims to thoroughly examine the capacity of various LMMs (e.g. GPT-4V) to discern and respond to the nuanced aspects of social abuse manifested in memes. We introduce the comprehensive meme benchmark, GOAT-Bench, comprising over 6K varied memes encapsulating themes such as implicit hate speech, sexism, and cyberbullying, etc. Utilizing GOAT-Bench, we delve into the ability of LMMs to accurately assess hatefulness, misogyny, offensiveness, sarcasm, and harmful content. Our extensive experiments across a range of LMMs reveal that current models still exhibit a deficiency in safety awareness, showing insensitivity to various forms of implicit abuse. We posit that this shortfall represents a critical impediment to the realization of safe artificial intelligence. The GOAT-Bench and accompanying resources are publicly accessible at https://goatlmm.github.io/, contributing to ongoing research in this vital field.
翻訳日:2024-01-09 21:10:34 公開日:2024-01-07
# 英語コンポジション__Taking TOEFL独立筆記課題における自動評価ツールとしての大規模言語モデルの実証的研究

Empirical Study of Large Language Models as Automated Essay Scoring Tools in English Composition__Taking TOEFL Independent Writing Task for Example ( http://arxiv.org/abs/2401.03401v1 )

ライセンス: Link先を確認
Wei Xia, Shaoguang Mao, Chanjing Zheng(参考訳) 大規模言語モデルは、自然言語生成、推論、理解を含むタスクにおいて例外的な機能を示した。 本研究の目的は,toefl公式ガイドに記載された多様なスコア基準に基づく提案とコメントの構築である。 主な目的は、大規模な言語モデルの顕著な代表であるChatGPTの機能と制約を、自動エッセイスコアの文脈内で評価することである。 自動エッセイスコアリングのための一般的な手法は、ディープニューラルネットワーク、統計的機械学習技術、微調整事前学習モデルの利用である。 しかしながら、これらのテクニックは、さまざまなコンテキストや主題に適用する場合、主にデータ要求の実質と小さなサンプルサイズへの適応性が制限されているため、課題に直面している。 対照的に,本研究ではchatgptを用いて,実験的な手法を用いて,小標本でも英語エッセイの自動評価を行う。 実験結果から,chatgptは自動エッセイスコアリングに操作機能を提供できることが示唆されたが,結果は回帰効果を示した。 chatgptの効果的な設計と実装は、これらのプロンプトが特定のしきい値基準に従うため、深いドメインの専門知識と技術能力を必要とすることを強調することが不可欠である。 キーワード:chatgpt、自動エッセイスコアリング、即興学習、toefl独立ライティングタスク

Large language models have demonstrated exceptional capabilities in tasks involving natural language generation, reasoning, and comprehension. This study aims to construct prompts and comments grounded in the diverse scoring criteria delineated within the official TOEFL guide. The primary objective is to assess the capabilities and constraints of ChatGPT, a prominent representative of large language models, within the context of automated essay scoring. The prevailing methodologies for automated essay scoring involve the utilization of deep neural networks, statistical machine learning techniques, and fine-tuning pre-trained models. However, these techniques face challenges when applied to different contexts or subjects, primarily due to their substantial data requirements and limited adaptability to small sample sizes. In contrast, this study employs ChatGPT to conduct an automated evaluation of English essays, even with a small sample size, employing an experimental approach. The empirical findings indicate that ChatGPT can provide operational functionality for automated essay scoring, although the results exhibit a regression effect. It is imperative to underscore that the effective design and implementation of ChatGPT prompts necessitate a profound domain expertise and technical proficiency, as these prompts are subject to specific threshold criteria. Keywords: ChatGPT, Automated Essay Scoring, Prompt Learning, TOEFL Independent Writing Task
翻訳日:2024-01-09 19:16:11 公開日:2024-01-07
# Grimoireは大規模言語モデルの強化に必要なもの

Grimoire is All You Need for Enhancing Large Language Models ( http://arxiv.org/abs/2401.03385v1 )

ライセンス: Link先を確認
Ding Chen, Shichao Song, Qingchen Yu, Zhiyu Li, Wenjin Wang, Feiyu Xiong, Bo Tang(参考訳) In-context Learning(ICL)は、いくつかの質問と回答の例を提供することで、特定のタスクにおける大規模言語モデルの性能を向上させるための重要な方法の1つである。 しかし、異なるタイプのモデルのicl能力は、モデルアーキテクチャ、学習データ量、パラメータのサイズといった要因により、大きな変動を示す。 一般に、モデルのパラメータサイズが大きくなり、学習データが大きくなればなるほど、そのicl能力は強くなる。 本稿では,強力な言語モデルを用いた例から学習し,これらの学習スキルを推論や応用のための弱い言語モデルに要約・移行するslieicl(strong llm enhanced icl)法を提案する。 これにより、ICLの安定性と有効性が保証される。 SLEICLは、弱い言語モデルを直接学習するのに対して、これらのモデルではICLの難しさを減らしている。 5つの言語モデルを用いた最大8つのデータセットを用いて実験を行い、弱い言語モデルがSLEICL法によるゼロショットや少数ショット機能よりも一貫した改善を実現することを示した。 いくつかの弱い言語モデルは、SLEICLの助けを借りて、GPT4-1106-preview(ゼロショット)のパフォーマンスを上回りました。

In-context learning (ICL) is one of the key methods for enhancing the performance of large language models on specific tasks by providing a set of few-shot question and answer examples. However, the ICL capability of different types of models shows significant variation due to factors such as model architecture, volume of learning data, and the size of parameters. Generally, the larger the model's parameter size and the more extensive the learning data, the stronger its ICL capability. In this paper, we propose a method SLEICL (Strong LLM Enhanced ICL) that involves learning from examples using strong language models and then summarizing and transferring these learned skills to weak language models for inference and application. This ensures the stability and effectiveness of ICL. Compared to directly enabling weak language models to learn from prompt examples, SLEICL reduces the difficulty of ICL for these models. Our experiments, conducted on up to eight datasets with five language models, demonstrate that weak language models achieve consistent improvement over their own zero-shot or few-shot capabilities using the SLEICL method. Some weak language models even surpass the performance of GPT4-1106-preview (zero-shot) with the aid of SLEICL.
翻訳日:2024-01-09 19:15:48 公開日:2024-01-07
# conv_einsum:畳み込みテンソルニューラルネットワークにおける多線形演算の表現と高速評価のためのフレームワーク

conv_einsum: A Framework for Representation and Fast Evaluation of Multilinear Operations in Convolutional Tensorial Neural Networks ( http://arxiv.org/abs/2401.03384v1 )

ライセンス: Link先を確認
Tahseen Rabbani, Jiahao Su, Xiaoyu Liu, David Chan, Geoffrey Sangston, Furong Huang(参考訳) 現代のConvNetは、膨大なビジョンと画像分類タスクに対して最先端の結果を引き続き達成しているが、パラメータを増やすコストがかかる。 表現力を大幅に犠牲にすることなくネットワークをコンパクト化するための戦略の1つは、それを高次のテンソル化であるテンソルニューラルネットワーク(TNN)に置き換えることである。 TNNを経由したパスはマルチ線形演算(MLO)のシーケンスとして表現することができ、評価パスは浮動小数点演算(FLOP)の回数に大きな影響を与える。 一般的なeinsumのような関数は収縮などの単純なmlosを評価することができるが、既存の実装ではマルチウェイ畳み込みを処理できないため、テンソル化された畳み込み層を通した最適評価経路がトレーニング速度をいかに改善できるかのスキャット評価が行われる。 本稿では,テンソル畳み込み層をeinsumライクな文字列として表現する統一フレームワークと,これらの文字列をフロップ最小化方法で評価可能なmeta-algorithm conv_einsumを開発した。 オープンソース実装を用いた包括的実験により,畳み込みTNNの計算効率とメモリ効率の両面において,conv_einsumが著しく向上することが実証された。

Modern ConvNets continue to achieve state-of-the-art results over a vast array of vision and image classification tasks, but at the cost of increasing parameters. One strategy for compactifying a network without sacrificing much expressive power is to reshape it into a tensorial neural network (TNN), which is a higher-order tensorization of its layers, followed by a factorization, such as a CP-decomposition, which strips a weight down to its critical basis components. Passes through TNNs can be represented as sequences of multilinear operations (MLOs), where the evaluation path can greatly affect the number of floating point operations (FLOPs) incurred. While functions such as the popular einsum can evaluate simple MLOs such as contractions, existing implementations cannot process multi-way convolutions, resulting in scant assessments of how optimal evaluation paths through tensorized convolutional layers can improve training speed. In this paper, we develop a unifying framework for representing tensorial convolution layers as einsum-like strings and a meta-algorithm conv_einsum which is able to evaluate these strings in a FLOPs-minimizing manner. Comprehensive experiments, using our open-source implementation, over a wide range of models, tensor decompositions, and diverse tasks, demonstrate that conv_einsum significantly increases both computational and memory-efficiency of convolutional TNNs.
翻訳日:2024-01-09 19:15:27 公開日:2024-01-07
# 効果的なマルチインワン画像復元に向けて : シークエンシャルでプロンプトな学習戦略

Towards Effective Multiple-in-One Image Restoration: A Sequential and Prompt Learning Strategy ( http://arxiv.org/abs/2401.03379v1 )

ライセンス: Link先を確認
Xiangtao Kong, Chao Dong, Lei Zhang(参考訳) 単一タスクイメージ復元(IR)は大きな成功を収めているが、複数のIRタスクに対処できる単一モデルのトレーニングは依然として難しい課題である。 本研究では,7つのIRタスクからなるMultiple-in-one (MiO) IR問題について詳細に検討する。 MiO IRは、多様な目的の最適化と複数のタスクへの適応という、2つの重要な課題に直面している。 これらの課題に取り組むために、単純で効果的な2つの戦略を提示します。 最初の戦略はシーケンシャルラーニング(Sequence learning)と呼ばれ、多様な目的を最適化する方法に対処し、ネットワークがそれらを混ぜるのではなく、個別のIRタスクを逐次的に学習するように誘導する。 第2の戦略、即興学習は、ネットワークが特定のタスクを理解し、一般化能力を向上させるために、異なるIRタスクへの適応方法に対処しようとするものである。 19個のテストセットを評価し, 逐次学習戦略と迅速学習戦略が, 一般的なcnnおよびtransformerバックボーンのmio性能を著しく向上できることを実証した。 実験の結果, 2つの戦略が相互に補完し, より優れた劣化表現を学習し, モデルロバスト性を高めることが判明した。 提案したMiO IRの定式化と戦略により,高一般化能力のIRモデルの訓練方法の研究が促進されることが期待できる。

While single task image restoration (IR) has achieved significant successes, it remains a challenging issue to train a single model which can tackle multiple IR tasks. In this work, we investigate in-depth the multiple-in-one (MiO) IR problem, which comprises seven popular IR tasks. We point out that MiO IR faces two pivotal challenges: the optimization of diverse objectives and the adaptation to multiple tasks. To tackle these challenges, we present two simple yet effective strategies. The first strategy, referred to as sequential learning, attempts to address how to optimize the diverse objectives, which guides the network to incrementally learn individual IR tasks in a sequential manner rather than mixing them together. The second strategy, i.e., prompt learning, attempts to address how to adapt to the different IR tasks, which assists the network to understand the specific task and improves the generalization ability. By evaluating on 19 test sets, we demonstrate that the sequential and prompt learning strategies can significantly enhance the MiO performance of commonly used CNN and Transformer backbones. Our experiments also reveal that the two strategies can supplement each other to learn better degradation representations and enhance the model robustness. It is expected that our proposed MiO IR formulation and strategies could facilitate the research on how to train IR models with higher generalization capabilities.
翻訳日:2024-01-09 19:14:57 公開日:2024-01-07
# 強化学習とセマンティック・リワードを用いたLLMによるコード脆弱性修復

LLM-Powered Code Vulnerability Repair with Reinforcement Learning and Semantic Reward ( http://arxiv.org/abs/2401.03374v1 )

ライセンス: Link先を確認
Nafis Tanveer Islam, Joseph Khoury, Andrew Seong, Gonzalo De La Torre Parra, Elias Bou-Harb, Peyman Najafirad(参考訳) ソフトウェア開発では、機能重視がセキュリティ上の懸念を上回っており、github copilotのようなai駆動自動化ツールで勢いを増している。 これらのツールは、機能的コード開発における開発者の効率を大幅に改善します。 それにもかかわらず、そのようなツールが安全でないコードの作成にも責任を負うことには、依然として注目すべき懸念が残っている。 さらに、コードセキュリティに関する知識が極めて少ないため、開発者は"チェーン内の最も弱いリンク"と呼ばれている。 既存のソリューションは、脆弱なコードに対して合理的な解決策を提供するが、セキュリティ問題が繰り返されないように、適切な記述とコードセキュリティ教育を開発者に行わなければならない。 そこで本研究では,大規模言語モデルを用いた多目的コード脆弱性解析システム \texttt{secrepair} を導入することで,コードコメントによる脆弱性の完全な説明とともに,固定コードの識別と生成を支援する。 我々の革新的方法論は、強化学習パラダイムを用いて、意味的報酬機構によって拡張されたコードコメントを生成する。 そこで本研究では,LLMを用いた脆弱性解析に適した命令ベースデータセットを提案する。 GitHub上の6つのオープンソースIoTオペレーティングシステムにおいて、ゼロデイとNデイの脆弱性をさらに特定します。 その結果,強化学習とセマンティック報酬を併用することで,モデルの性能が向上し,コード脆弱性に対処する能力が向上することがわかった。

In software development, the predominant emphasis on functionality often supersedes security concerns, a trend gaining momentum with AI-driven automation tools like GitHub Copilot. These tools significantly improve developers' efficiency in functional code development. Nevertheless, it remains a notable concern that such tools are also responsible for creating insecure code, predominantly because of pre-training on publicly available repositories with vulnerable code. Moreover, developers are called the "weakest link in the chain" since they have very minimal knowledge of code security. Although existing solutions provide a reasonable solution to vulnerable code, they must adequately describe and educate the developers on code security to ensure that the security issues are not repeated. Therefore we introduce a multipurpose code vulnerability analysis system \texttt{SecRepair}, powered by a large language model, CodeGen2 assisting the developer in identifying and generating fixed code along with a complete description of the vulnerability with a code comment. Our innovative methodology uses a reinforcement learning paradigm to generate code comments augmented by a semantic reward mechanism. Inspired by how humans fix code issues, we propose an instruction-based dataset suitable for vulnerability analysis with LLMs. We further identify zero-day and N-day vulnerabilities in 6 Open Source IoT Operating Systems on GitHub. Our findings underscore that incorporating reinforcement learning coupled with semantic reward augments our model's performance, thereby fortifying its capacity to address code vulnerabilities with improved efficacy.
翻訳日:2024-01-09 19:14:34 公開日:2024-01-07
# 低エネルギーe c60弾性散乱におけるews時間遅れ

EWS time delay in low energy e C60 elastic scattering ( http://arxiv.org/abs/2401.03370v1 )

ライセンス: Link先を確認
Aiswarya R., Rasheed Shaik, Jobin Jose, Hari R. Varma, and Himadri S. Chakraborty(参考訳) 投射対象散乱における時間遅延は、時間領域を探索することによって相互作用を理解するための基本的なツールである。 本研究では, 低エネルギー弾性e c60散乱におけるeisenbud-wigner-smith (ews) 時間遅延の計算と解析を行う。 非相対論的部分波解析(pwa)手法の枠組みを用いて検討を行った。 1)密度汎関数理論(DFT)と(2)環状正方形井戸(ASW)の静的モデルに射影-ターゲット相互作用を記述し,その最終的な結果を詳細に比較する。 また, 偏極が共振および非共振時間遅延に与える影響についても検討した。

Time delay in a projectile-target scattering is a fundamental tool in understanding their interactions by probing the temporal domain. The present study focuses on computing and analyzing the Eisenbud-Wigner-Smith (EWS) time delay in low energy elastic e C60 scattering. The investigation is carried out in the framework of a non-relativistic partial wave analysis (PWA) technique. The projectile-target interaction is described in (1) Density Functional Theory (DFT) and (2) Annular Square Well (ASW) static model, and their final results are compared in details. The impact of polarization on resonant and non-resonant time delay is also investigated.
翻訳日:2024-01-09 19:14:10 公開日:2024-01-07
# 分子特性予測のためのマルチモーダル表現学習:シーケンス,グラフ,幾何学

Multi-Modal Representation Learning for Molecular Property Prediction: Sequence, Graph, Geometry ( http://arxiv.org/abs/2401.03369v1 )

ライセンス: Link先を確認
Zeyu Wang, Tianyi Jiang, Jinhuan Wang, Qi Xuan(参考訳) 近年、ケミノマティクス問題における機械学習の急速な成長が見られる。 実際のトレーニングデータ不足の問題に取り組むため、ますます多くの研究者がデータ拡張技術に注意を払っている。 しかし、構築規則やデータのドメイン情報の問題に注意を払う研究者はほとんどおらず、これは拡張データの品質と拡張性能に直接影響する。 グラフベースの分子研究において、臨界位相指数としての分子接続指数は、トポロジーに基づく物理化学的性質と生物活性を直接的または間接的に反映することができる。 本稿では,分子グラフのトポロジを修飾して,原データと同じ分子接続指数を持つ拡張データを生成する新しいデータ拡張手法を提案する。 データ拡張技術と組み合わされた分子接続指数は、トポロジーベースの分子特性情報を保持し、より信頼性の高いデータを生成するのに役立つ。 さらに,提案モデルをテストするために5つのベンチマークデータセットを導入し,重要な分子トポロジ特徴に基づく拡張データが分子特性の予測精度を効果的に向上することを示すとともに,ケミノフォマティクス研究におけるデータ拡張の新たな視点を提供する。

Recent years have seen a rapid growth of machine learning in cheminformatics problems. In order to tackle the problem of insufficient training data in reality, more and more researchers pay attention to data augmentation technology. However, few researchers pay attention to the problem of construction rules and domain information of data, which will directly impact the quality of augmented data and the augmentation performance. While in graph-based molecular research, the molecular connectivity index, as a critical topological index, can directly or indirectly reflect the topology-based physicochemical properties and biological activities. In this paper, we propose a novel data augmentation technique that modifies the topology of the molecular graph to generate augmented data with the same molecular connectivity index as the original data. The molecular connectivity index combined with data augmentation technology helps to retain more topology-based molecular properties information and generate more reliable data. Furthermore, we adopt five benchmark datasets to test our proposed models, and the results indicate that the augmented data generated based on important molecular topology features can effectively improve the prediction accuracy of molecular properties, which also provides a new perspective on data augmentation in cheminformatics studies.
翻訳日:2024-01-09 19:13:59 公開日:2024-01-07
# 多成分量子状態の絡み合い検出長さ

Entanglement detection length of multipartite quantum states ( http://arxiv.org/abs/2401.03367v1 )

ライセンス: Link先を確認
Fei Shi, Lin Chen, Giulio Chiribella, and Qi Zhao(参考訳) マルチパーティタイト絡み合いは、量子コンピューティング、通信、メトロロジーにとって重要な資源である。 しかし、このリソースを検出することは困難であり、真のマルチパーティの絡み合いには、実験的に実装が難しいグローバルな測定が必要である可能性がある。 本研究では,真の多部絡み検出に必要な観測値の最小長として定義される絡み検出長の概念を紹介する。 我々は、ghz様状態、ディッケ状態、グラフ状態など、真に絡み合った様々な状態の絡み合い検出長さを特徴付ける。 また, 絡み合い検出長さに基づく真の絡み合い状態の分類についても述べる。 さらに, 実際に絡み合う状態を決定するのに必要な観測値の最小長と, 絡み合い検出長さが異なることを示す。 本研究は, エンタングルメント検出において測定すべき観測値の最小化に有用である。

Multipartite entanglement is a crucial resource for quantum computing, communication, and metrology. However, detecting this resource can be challenging: for genuine multipartite entanglement it may require global measurements that are hard to implement experimentally. In this study, we introduce the concept of entanglement detection length, defined as the minimum length of observables required to detect genuine multipartite entanglement. We characterize the entanglement detection length for various types of genuinely entangled states, including GHZ-like states, Dicke states, and graph states. We also present a classification of genuinely entangled states based on entanglement detection length. Furthermore, we demonstrate that the entanglement detection length differs from the minimum length of observables needed to uniquely determine a genuinely entangled state. Our findings are valuable for minimizing the number of observables that must be measured in entanglement detection.
翻訳日:2024-01-09 19:13:37 公開日:2024-01-07
# データベース内データインプテーション

In-Database Data Imputation ( http://arxiv.org/abs/2401.03359v1 )

ライセンス: Link先を確認
Massimo Perini, Milos Nikolic(参考訳) データの欠落は多くの領域で広く問題となり、データ分析と意思決定の課題を生み出します。 不完全レコードの排除や単純な推定(平均値など)のような欠落データを扱う従来の手法は、計算的に効率的であるが、バイアスを導入して変動関係を乱す可能性があり、不正確な分析につながる。 モデルベースの計算手法は、データの変動性と関係を保存し、より堅牢なソリューションを提供するが、より計算時間を必要とし、小さなデータセットに適用性を制限する。 この作業は、広く使われているMICE方式を用いて、データベースシステム内の効率的で高品質でスケーラブルなデータ計算を可能にする。 本手法は,より高速なモデル学習のための計算共有とリング抽象化に適応する。 連続値と分類値の両方を暗示するために,確率線形回帰のデータベース内学習法とガウス判別分析モデルを開発した。 PostgreSQL と DuckDB の MICE 実装は,計算時間の観点から最大2桁の精度で代替 MICE 実装やモデルベース計算技術より優れており,高い計算品質を維持している。

Missing data is a widespread problem in many domains, creating challenges in data analysis and decision making. Traditional techniques for dealing with missing data, such as excluding incomplete records or imputing simple estimates (e.g., mean), are computationally efficient but may introduce bias and disrupt variable relationships, leading to inaccurate analyses. Model-based imputation techniques offer a more robust solution that preserves the variability and relationships in the data, but they demand significantly more computation time, limiting their applicability to small datasets. This work enables efficient, high-quality, and scalable data imputation within a database system using the widely used MICE method. We adapt this method to exploit computation sharing and a ring abstraction for faster model training. To impute both continuous and categorical values, we develop techniques for in-database learning of stochastic linear regression and Gaussian discriminant analysis models. Our MICE implementations in PostgreSQL and DuckDB outperform alternative MICE implementations and model-based imputation techniques by up to two orders of magnitude in terms of computation time, while maintaining high imputation quality.
翻訳日:2024-01-09 19:13:23 公開日:2024-01-07
# グラフニューラルネットワークにおける認識不確かさの高精度かつスケーラブルな推定

Accurate and Scalable Estimation of Epistemic Uncertainty for Graph Neural Networks ( http://arxiv.org/abs/2401.03350v1 )

ライセンス: Link先を確認
Puja Trivedi, Mark Heimann, Rushil Anirudh, Danai Koutra, Jayaraman J. Thiagarajan(参考訳) グラフニューラルネットワーク(gnns)はノードおよびグラフ表現学習タスクに広く使用されているが,分布シフト下でのgnn不確実性推定の信頼性は比較的未検討のままである。 実際、ポストホックキャリブレーション戦略は、分配内キャリブレーションを改善するために使用できるが、分配シフト時にキャリブレーションも改善する必要はない。 しかしながら、本質的な不確実性推定が優れているGNNを生成する技術は特に有用であり、後からポストホック戦略と組み合わせることができる。 そこで本研究では,本質的gnn不確実性推定を改善するための新しいトレーニングフレームワークであるg-$\delta$uqを提案する。 本フレームワークは,グラフアンカー戦略によるグラフデータ中心の確率的データに適応し,部分的に確率的GNNをサポートすることができる。 十分に確率的なネットワークが信頼できる推定値を得るために必要とされているが、仮説をサンプリングする際、アンカーリング戦略によって引き起こされる機能的多様性は、これを不要にし、事前訓練されたモデル上でG-$\Delta$UQをサポートすることができる。 実際、共変量、概念、グラフサイズシフトの下での広範な評価により、G-$\Delta$UQがノードとグラフの分類においてより良い校正GNNをもたらすことを示す。 さらに、分布外検出および一般化ギャップ推定の不確実性に基づくタスクの性能も向上する。 全体として、我々の研究はGNNの不確実性推定に関する洞察を提供し、信頼性のある推定値を得る上でのG-$\Delta$UQの有用性を実証する。

While graph neural networks (GNNs) are widely used for node and graph representation learning tasks, the reliability of GNN uncertainty estimates under distribution shifts remains relatively under-explored. Indeed, while post-hoc calibration strategies can be used to improve in-distribution calibration, they need not also improve calibration under distribution shift. However, techniques which produce GNNs with better intrinsic uncertainty estimates are particularly valuable, as they can always be combined with post-hoc strategies later. Therefore, in this work, we propose G-$\Delta$UQ, a novel training framework designed to improve intrinsic GNN uncertainty estimates. Our framework adapts the principle of stochastic data centering to graph data through novel graph anchoring strategies, and is able to support partially stochastic GNNs. While, the prevalent wisdom is that fully stochastic networks are necessary to obtain reliable estimates, we find that the functional diversity induced by our anchoring strategies when sampling hypotheses renders this unnecessary and allows us to support G-$\Delta$UQ on pretrained models. Indeed, through extensive evaluation under covariate, concept and graph size shifts, we show that G-$\Delta$UQ leads to better calibrated GNNs for node and graph classification. Further, it also improves performance on the uncertainty-based tasks of out-of-distribution detection and generalization gap estimation. Overall, our work provides insights into uncertainty estimation for GNNs, and demonstrates the utility of G-$\Delta$UQ in obtaining reliable estimates.
翻訳日:2024-01-09 19:13:03 公開日:2024-01-07
# 実世界ヘイトスピーチ検出のための大規模言語モデルの検討

An Investigation of Large Language Models for Real-World Hate Speech Detection ( http://arxiv.org/abs/2401.03346v1 )

ライセンス: Link先を確認
Keyan Guo and Alexander Hu and Jaden Mu and Ziheng Shi and Ziming Zhao and Nishant Vishwamitra and Hongxin Hu(参考訳) ヘイトスピーチは、今日の社会空間を悩ませる主要な問題として現れてきた。 この問題には多大な努力が払われてきたが、オンライン上でヘイトスピーチを効果的に検出する手法は依然としてかなり限られている。 既存の方法の大きな制限は、ヘイトスピーチの検出が高度に文脈的な問題であり、ヘイトスピーチの文脈を完全に捉えて正確な予測を行うことができないことである。 近年,大規模言語モデル (LLM) はいくつかの自然言語処理において最先端の性能を示した。 LLMは膨大な量の自然言語データを使用して広範な訓練を受けており、複雑な文脈の詳細を把握できる。 したがって、文脈認識型ヘイトスピーチ検出の知識基盤として使用できる。 しかし、ヘイトスピーチ検出にLLMを使うことの根本的な問題は、文脈対応ヘイトスピーチ検出にLLMを効果的に促す研究が存在しないことである。 本研究では,5つのヘイトスピーチデータセットを用いて,ヘイトスピーチ検出の大規模研究を行う。 我々は、llmsが現在のベンチマーク機械学習モデルのヘイトスピーチ識別性能を上回っていることを発見した。 ヘイトスピーチの検出におけるLLMの使用を最適化する4つの多様なプロンプト戦略を提案する。 本研究は,LLMの知識ベースを十分に活用することで,ヘイトスピーチの文脈を効果的に把握し,既存の手法よりもはるかに優れていることを示す。 さらに、llmはヘイトスピーチの文脈検出のための豊富な知識ベースを提供することができるが、効率的な検出のためにこの知識ベースを効果的に活用する上で、適切なプロンプト戦略が重要な役割を果たす。

Hate speech has emerged as a major problem plaguing our social spaces today. While there have been significant efforts to address this problem, existing methods are still significantly limited in effectively detecting hate speech online. A major limitation of existing methods is that hate speech detection is a highly contextual problem, and these methods cannot fully capture the context of hate speech to make accurate predictions. Recently, large language models (LLMs) have demonstrated state-of-the-art performance in several natural language tasks. LLMs have undergone extensive training using vast amounts of natural language data, enabling them to grasp intricate contextual details. Hence, they could be used as knowledge bases for context-aware hate speech detection. However, a fundamental problem with using LLMs to detect hate speech is that there are no studies on effectively prompting LLMs for context-aware hate speech detection. In this study, we conduct a large-scale study of hate speech detection, employing five established hate speech datasets. We discover that LLMs not only match but often surpass the performance of current benchmark machine learning models in identifying hate speech. By proposing four diverse prompting strategies that optimize the use of LLMs in detecting hate speech. Our study reveals that a meticulously crafted reasoning prompt can effectively capture the context of hate speech by fully utilizing the knowledge base in LLMs, significantly outperforming existing techniques. Furthermore, although LLMs can provide a rich knowledge base for the contextual detection of hate speech, suitable prompting strategies play a crucial role in effectively leveraging this knowledge base for efficient detection.
翻訳日:2024-01-09 19:12:35 公開日:2024-01-07
# 時系列異常検出における弱拡張変分オートエンコーダ

Weakly Augmented Variational Autoencoder in Time Series Anomaly Detection ( http://arxiv.org/abs/2401.03341v1 )

ライセンス: Link先を確認
Zhangkai Wu, Longbing Cao, Qi Zhang, Junxian Zhou, Hui Chen(参考訳) 教師なしトレーニングと不確実性推定のため、深部変分オートエンコーダ(VAE)は、再構成に基づく時系列異常検出(TSAD)の強力なツールとなっている。 既存のVAEベースのTSAD手法は、統計的あるいは深層的なメタプライヤをチューニングし、データの時空間依存性を効果的に捉える確率を推定する。 しかし、これらの手法は、異常検出タスクでしばしば発生する固有のデータ不足の課題に直面している。 このような希少性は、潜り穴、潜り空間における不連続領域に容易につながり、これらの不連続空間上の非破壊的再構成をもたらす。 本稿では,VAEと自己教師付き学習(SSL)を組み合わせた新たな生成フレームワークを提案する。

Due to their unsupervised training and uncertainty estimation, deep Variational Autoencoders (VAEs) have become powerful tools for reconstruction-based Time Series Anomaly Detection (TSAD). Existing VAE-based TSAD methods, either statistical or deep, tune meta-priors to estimate the likelihood probability for effectively capturing spatiotemporal dependencies in the data. However, these methods confront the challenge of inherent data scarcity, which is often the case in anomaly detection tasks. Such scarcity easily leads to latent holes, discontinuous regions in latent space, resulting in non-robust reconstructions on these discontinuous spaces. We propose a novel generative framework that combines VAEs with self-supervised learning (SSL) to address this issue.
翻訳日:2024-01-09 19:12:11 公開日:2024-01-07
# 大規模言語モデルに基づく知的エージェントの探索:定義、方法、展望

Exploring Large Language Model based Intelligent Agents: Definitions, Methods, and Prospects ( http://arxiv.org/abs/2401.03428v1 )

ライセンス: Link先を確認
Yuheng Cheng, Ceyao Zhang, Zhengwen Zhang, Xiangrui Meng, Sirui Hong, Wenhao Li, Zihao Wang, Zekai Wang, Feng Yin, Junhua Zhao, Xiuqiang He(参考訳) インテリジェントエージェントは、人工知能(AGI)への潜在的な道のりとして際立っている。 そのため、研究者は様々な実装に多大な努力を払ってきた。 大規模言語モデル(LLM)の最近の進歩から、LLMをベースとしたエージェントは、汎用タスクアシスタントとしての自律的な機能から、コーディング、社会、経済分野の応用に至るまで、さまざまなアプリケーションにわたって、普遍的な自然言語をインターフェースとして使用する。 本稿では, 単一エージェントおよびマルチエージェントシステムにおけるLCMベースの知的エージェントの詳細な概要を述べる。 定義、研究フレームワーク、その構成、認知と計画方法、ツール利用、環境フィードバックに対する反応などの基礎的な構成要素を網羅する。 また,マルチロールコラボレーションやメッセージパッシング,エージェント間のコミュニケーション問題を緩和するための戦略など,llmベースのエージェントをマルチエージェントシステムにデプロイするメカニズムについても検討した。 議論は人気のあるデータセットやアプリケーションシナリオにも光を当てた。 我々は、AIと自然言語処理の進化の展望を考慮し、LLMベースのエージェントの展望を考察して結論付ける。

Intelligent agents stand out as a potential path toward artificial general intelligence (AGI). Thus, researchers have dedicated significant effort to diverse implementations for them. Benefiting from recent progress in large language models (LLMs), LLM-based agents that use universal natural language as an interface exhibit robust generalization capabilities across various applications -- from serving as autonomous general-purpose task assistants to applications in coding, social, and economic domains, LLM-based agents offer extensive exploration opportunities. This paper surveys current research to provide an in-depth overview of LLM-based intelligent agents within single-agent and multi-agent systems. It covers their definitions, research frameworks, and foundational components such as their composition, cognitive and planning methods, tool utilization, and responses to environmental feedback. We also delve into the mechanisms of deploying LLM-based agents in multi-agent systems, including multi-role collaboration, message passing, and strategies to alleviate communication issues between agents. The discussions also shed light on popular datasets and application scenarios. We conclude by envisioning prospects for LLM-based agents, considering the evolving landscape of AI and natural language processing.
翻訳日:2024-01-09 19:04:18 公開日:2024-01-07
# エンティティ解決のための大規模言語モデル活用について

On Leveraging Large Language Models for Enhancing Entity Resolution ( http://arxiv.org/abs/2401.03426v1 )

ライセンス: Link先を確認
Huahang Li, Longyu Feng, Shuangyin Li, Fei Hao, Chen Jason Zhang, Yuanfeng Song, Lei Chen(参考訳) エンティティ・リゾリューション(Entity resolution)は、同じ現実世界のエンティティに関連するレコードを識別・統合するタスクであり、eコマース、ヘルスケア、法執行機関などの様々な分野において重要な役割を果たす。 GPT-4のような大規模言語モデル(LLM)の出現は、その高度な言語機能を活用して、このタスクに新たな次元を導入した。 本稿では,LLMの実体分解過程における可能性について検討し,その利点と大規模マッチングに伴う計算複雑性の両面に光を当てる。 本稿では,np-hard問題であることが判明した mqssp というマッチング質問の最適集合の選択を含む,llm の効率的な利用のための戦略を紹介する。 私たちのアプローチは、予算に限りなく消費を保ちながら、最も効果的なマッチング質問を最適に選択します。 さらに, LLMからの応答を受信したあとのパーティションの分布を調整する手法を提案し, 実体分解能の不確実性を低減することを目的とする。 我々は, エントロピーを指標とした手法の有効性を評価し, 提案手法の有効性と効果を実証し, 実世界の応用に有望な可能性を示した。

Entity resolution, the task of identifying and consolidating records that pertain to the same real-world entity, plays a pivotal role in various sectors such as e-commerce, healthcare, and law enforcement. The emergence of Large Language Models (LLMs) like GPT-4 has introduced a new dimension to this task, leveraging their advanced linguistic capabilities. This paper explores the potential of LLMs in the entity resolution process, shedding light on both their advantages and the computational complexities associated with large-scale matching. We introduce strategies for the efficient utilization of LLMs, including the selection of an optimal set of matching questions, namely MQsSP, which is proved to be a NP-hard problem. Our approach optimally chooses the most effective matching questions while keep consumption limited to your budget . Additionally, we propose a method to adjust the distribution of possible partitions after receiving responses from LLMs, with the goal of reducing the uncertainty of entity resolution. We evaluate the effectiveness of our approach using entropy as a metric, and our experimental results demonstrate the efficiency and effectiveness of our proposed methods, offering promising prospects for real-world applications.
翻訳日:2024-01-09 19:04:00 公開日:2024-01-07
# MLCA-AVSR:多層クロスアテンションフュージョンに基づく音声認識

MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition ( http://arxiv.org/abs/2401.03424v1 )

ライセンス: Link先を確認
He Wang, Pengcheng Guo, Pan Zhou, Lei Xie(参考訳) 雑音の多い環境では自動音声認識(ASR)システムが大幅に劣化する一方、音声-視覚音声認識(AVSR)システムはノイズ不変の視覚的手がかりでオーディオストリームを補完し、システムの堅牢性を向上させる。 しかし、現在の研究では、モダリティ特徴学習中の文脈関係を考慮せずに、モダリティ固有のエンコーダの出力のようなよく学習されたモダリティ特徴の融合に重点が置かれている。 本研究では,多層クロスアテンション融合に基づくAVSR(MLCA-AVSR)アプローチを提案する。 MISP2022-AVSR Challengeデータセットによる実験結果から,提案システムの有効性が示され,Eval集合上での最小置換文字誤り率(cpCER)が30.57%,Eval集合において最大3.17%向上した。 複数のシステムの融合に続いて、提案手法は第1位システムを超え、このデータセット上で29.13%の新しいSOTA cpCERを確立する。

While automatic speech recognition (ASR) systems degrade significantly in noisy environments, audio-visual speech recognition (AVSR) systems aim to complement the audio stream with noise-invariant visual cues and improve the system's robustness. However, current studies mainly focus on fusing the well-learned modality features, like the output of modality-specific encoders, without considering the contextual relationship during the modality feature learning. In this study, we propose a multi-layer cross-attention fusion based AVSR (MLCA-AVSR) approach that promotes representation learning of each modality by fusing them at different levels of audio/visual encoders. Experimental results on the MISP2022-AVSR Challenge dataset show the efficacy of our proposed system, achieving a concatenated minimum permutation character error rate (cpCER) of 30.57% on the Eval set and yielding up to 3.17% relative improvement compared with our previous system which ranked the second place in the challenge. Following the fusion of multiple systems, our proposed approach surpasses the first-place system, establishing a new SOTA cpCER of 29.13% on this dataset.
翻訳日:2024-01-09 19:03:37 公開日:2024-01-07
# GRAM:マルチページVQAのためのグローバル推論

GRAM: Global Reasoning for Multi-Page VQA ( http://arxiv.org/abs/2401.03411v1 )

ライセンス: Link先を確認
Tsachi Blau, Sharon Fogel, Roi Ronen, Alona Golts, Roy Ganz, Elad Ben Avraham, Aviad Aberdam, Shahar Tsiper and Ron Litman(参考訳) トランスフォーマーベースの大規模言語モデルの利用の増加は、長いシーケンスを処理するという課題を先導する。 ドキュメント視覚的質問応答(DocVQA)では、主要な手法は単一ページの設定に焦点を当て、文書は数百ページに及ぶ。 計算量の多い事前学習を必要とせずに,事前学習したシングルページモデルを複数ページ設定にシームレスに拡張するGRAMを提案する。 そこで我々は,局所的なページレベルの理解にシングルページエンコーダを活用し,それを文書レベルの指定層や学習可能なトークンで拡張し,グローバルな推論のためにページ間の情報の流れを容易にする。 本稿では,新たに導入された文書レベルのトークンを利用するためのモデルを提案する。 復号化時に計算量を削減するため、C-Formerモデルを用いて任意の圧縮ステージを導入し、符号化シーケンス長を削減し、品質とレイテンシのトレードオフを可能にする。 大規模実験では,多ページDocVQAのベンチマークでGRAMの最先端性能を示し,本手法の有効性を示した。

The increasing use of transformer-based large language models brings forward the challenge of processing long sequences. In document visual question answering (DocVQA), leading methods focus on the single-page setting, while documents can span hundreds of pages. We present GRAM, a method that seamlessly extends pre-trained single-page models to the multi-page setting, without requiring computationally-heavy pretraining. To do so, we leverage a single-page encoder for local page-level understanding, and enhance it with document-level designated layers and learnable tokens, facilitating the flow of information across pages for global reasoning. To enforce our model to utilize the newly introduced document-level tokens, we propose a tailored bias adaptation method. For additional computational savings during decoding, we introduce an optional compression stage using our C-Former model, which reduces the encoded sequence length, thereby allowing a tradeoff between quality and latency. Extensive experiments showcase GRAM's state-of-the-art performance on the benchmarks for multi-page DocVQA, demonstrating the effectiveness of our approach.
翻訳日:2024-01-09 19:03:13 公開日:2024-01-07
# サッカーシミュレーション2dゲームにおけるパス予測を改善する工学的特徴

Engineering Features to Improve Pass Prediction in Soccer Simulation 2D Games ( http://arxiv.org/abs/2401.03410v1 )

ライセンス: Link先を確認
Nader Zare, Mahtab Sarvmaili, Aref Sayareh, Omid Amini, Stan Matwin Amilcar Soares(参考訳) Soccer Simulation 2D (SS2D) は、2次元の実際のサッカーゲームのシミュレーションである。 サッカーでは、パス行動は、ボールをチームの所有に保ち、ゴールの機会を作り出すために不可欠な行動です。 同様に、ss2dでは、対戦相手とチームメイトのパス行動を予測することは、リソースを管理し、より多くのゴールを獲得するのに役立ちます。 そこで本研究では,Deep Neural Networks (DNN) とRandom Forest (RF) を用いて,サッカー2Dプレーヤーのパス動作のモデル化を試みた。 本稿では,エージェントの意思決定をオンライン形式で記録できる組込みデータ抽出モジュールを提案する。 その後,トレーニングデータの準備に4つのデータソート手法を適用する。 その後、異なるプレイ戦略を持つRoboCup 2019のトップ6チームに対して、トレーニングされたモデルのパフォーマンスを評価する。 最後に,通過戦略の予測における異なる特徴群の重要性について検討する。 この研究の各ステップにおけるすべての結果は提案手法の有効性を証明し、サッカーシミュレーションの2Dゲームにおけるパス予測の性能を5\%(例えば、同じチームと対戦する)から10\%(例えば、ロブクアップトップチームと対戦する)まで改善する。

Soccer Simulation 2D (SS2D) is a simulation of a real soccer game in two dimensions. In soccer, passing behavior is an essential action for keeping the ball in possession of our team and creating goal opportunities. Similarly, for SS2D, predicting the passing behaviors of both opponents and our teammates helps manage resources and score more goals. Therefore, in this research, we have tried to address the modeling of passing behavior of soccer 2D players using Deep Neural Networks (DNN) and Random Forest (RF). We propose an embedded data extraction module that can record the decision-making of agents in an online format. Afterward, we apply four data sorting techniques for training data preparation. After, we evaluate the trained models' performance playing against 6 top teams of RoboCup 2019 that have distinctive playing strategies. Finally, we examine the importance of different feature groups on the prediction of a passing strategy. All results in each step of this work prove our suggested methodology's effectiveness and improve the performance of the pass prediction in Soccer Simulation 2D games ranging from 5\% (e.g., playing against the same team) to 10\% (e.g., playing against Robocup top teams).
翻訳日:2024-01-09 19:02:54 公開日:2024-01-07
# 軍事的・外交的意思決定における言語モデルからのエスカレーションリスク

Escalation Risks from Language Models in Military and Diplomatic Decision-Making ( http://arxiv.org/abs/2401.03408v1 )

ライセンス: Link先を確認
Juan-Pablo Rivera, Gabriel Mukobi, Anka Reuel, Max Lamparth, Chandler Smith, Jacquelyn Schneider(参考訳) 政府は、特にGPT-4のような先進的なジェネレーティブAIモデルの出現に伴い、軍事的および外国の意思決定に自律的なAIエージェントを統合することを検討している。 私たちの研究は、シミュレートされた戦争ゲームにおける複数のaiエージェントの振る舞いを精査することを目的としています。 政治科学と国際関係のエスカレーションダイナミクスに関する文献を参考に,これらのエージェントによるエスカレーションリスクを異なるシナリオで評価するための,新たなウォーゲームシミュレーションとスコアリングフレームワークを設計する。 従来の研究とは対照的に,我々の研究は質的および定量的な洞察と,大規模言語モデル(LLM)に焦点を当てている。 調査対象のLLMは,いずれもエスカレーションと予測困難なエスカレーションパターンを示す。 我々は、モデルが武器競争のダイナミクスを発達させ、より大きな衝突を引き起こし、稀に核兵器の配備に繋がる傾向があることを観察する。 定性的には,モデルが選択した行動について報告した推論を収集し,抑止行動と第一ストライク戦術に基づく不安の正当化を観察する。 軍事的・外政的な文脈の重大さを踏まえ、戦略的軍事的・外交的意思決定のために自律言語モデルエージェントを配備する前に、さらなる検討と慎重な検討を推奨する。

Governments are increasingly considering integrating autonomous AI agents in high-stakes military and foreign-policy decision-making, especially with the emergence of advanced generative AI models like GPT-4. Our work aims to scrutinize the behavior of multiple AI agents in simulated wargames, specifically focusing on their predilection to take escalatory actions that may exacerbate multilateral conflicts. Drawing on political science and international relations literature about escalation dynamics, we design a novel wargame simulation and scoring framework to assess the escalation risks of actions taken by these agents in different scenarios. Contrary to prior studies, our research provides both qualitative and quantitative insights and focuses on large language models (LLMs). We find that all five studied off-the-shelf LLMs show forms of escalation and difficult-to-predict escalation patterns. We observe that models tend to develop arms-race dynamics, leading to greater conflict, and in rare cases, even to the deployment of nuclear weapons. Qualitatively, we also collect the models' reported reasonings for chosen actions and observe worrying justifications based on deterrence and first-strike tactics. Given the high stakes of military and foreign-policy contexts, we recommend further examination and cautious consideration before deploying autonomous language model agents for strategic military or diplomatic decision-making.
翻訳日:2024-01-09 19:02:33 公開日:2024-01-07
# 高分解能ジコトコス像の両側参照

Bilateral Reference for High-Resolution Dichotomous Image Segmentation ( http://arxiv.org/abs/2401.03407v1 )

ライセンス: Link先を確認
Peng Zheng, Dehong Gao, Deng-Ping Fan, Li Liu, Jorma Laaksonen, Wanli Ouyang and Nicu Sebe(参考訳) 本稿では,高分解能ディコトコス像分割(DIS)のための新しい双方向参照フレームワーク(***BiRefNet**)を紹介する。 本研究は,2つの基本成分: 局所化モジュール (LM) と再構成モジュール (RM) を, 提案した両側参照 (BiRef) で構成する。 lmはグローバルセマンティクス情報を用いたオブジェクトのローカライズを支援する。 rm内ではbirefを再構成プロセスに利用し,画像の階層的パッチがソース参照を提供し,勾配マップがターゲット参照として機能する。 これらのコンポーネントは協調して最終的な予測地図を生成する。 また,より詳細な領域への注目度を高めるために,補助勾配の監督も導入する。 さらに,地図品質と訓練プロセスを改善するためにdis用に調整された実践的訓練戦略について概説する。 提案手法の適用性を検証するため,BiRefNet*は,すべてのベンチマークにおいて,タスク固有の最先端手法よりも優れた性能を示すことを示す。

We introduce a novel bilateral reference framework (***BiRefNet***) for high-resolution dichotomous image segmentation (DIS). It comprises two essential components: the localization module (LM) and the reconstruction module (RM) with our proposed bilateral reference (BiRef). The LM aids in object localization using global semantic information. Within the RM, we utilize BiRef for the reconstruction process, where hierarchical patches of images provide the source reference and gradient maps serve as the target reference. These components collaborate to generate the final predicted maps. We also introduce auxiliary gradient supervision to enhance focus on regions with finer details. Furthermore, we outline practical training strategies tailored for DIS to improve map quality and training process. To validate the general applicability of our approach, we conduct extensive experiments on four tasks to evince that *BiRefNet* exhibits remarkable performance, outperforming task-specific cutting-edge methods across all benchmarks.
翻訳日:2024-01-09 19:02:09 公開日:2024-01-07
# 機械学習によるサッカーシミュレーション2dゲームにおけるドリブル、パス、マーキング動作の改善

Improving Dribbling, Passing, and Marking Actions in Soccer Simulation 2D Games Using Machine Learning ( http://arxiv.org/abs/2401.03406v1 )

ライセンス: Link先を確認
Nader Zare, Omid Amini, Aref Sayareh, Mahtab Sarvmaili, Arad Firouzkouhi, Stan Matwin, Amilcar Soares(参考訳) ロボカップの競技会は1997年に始まり、最古のロボカップリーグとして知られている。 robocup 2d soccer simulation leagueは、24人の自律エージェントが対戦する2つのチームでプレーする、確率的で部分的に観察可能なサッカー環境である。 本稿では, CYRUS(RoboCup 2021 2D Soccer Simulation Leagueのチャンピオン)の主な戦略と機能について述べる。 この研究で紹介され議論された新しい機能は (i)マルチアクションドリブル (ii)予測を通す、及び (iii) マーク決定。 マルチアクションドリブル戦略により、CYRUSはより頻繁に成功し、ゲーム中にドリブルアクションが行われたときより安全になった。 Pass Predictionは、チームメイトのパス行動を予測し、エージェントを目標達成に向けてよりうまくコラボレーションさせることで、ゲームプレイを強化しました。 最後に、マーキング決定はマルチエージェントマッチング問題に対処し、対戦相手のプレイヤーをマークするための最適解を見つけることでCYRUS防御戦略を改善する。

The RoboCup competition was started in 1997, and is known as the oldest RoboCup league. The RoboCup 2D Soccer Simulation League is a stochastic, partially observable soccer environment in which 24 autonomous agents play on two opposing teams. In this paper, we detail the main strategies and functionalities of CYRUS, the RoboCup 2021 2D Soccer Simulation League champions. The new functionalities presented and discussed in this work are (i) Multi Action Dribble, (ii) Pass Prediction and (iii) Marking Decision. The Multi Action Dribbling strategy enabled CYRUS to succeed more often and to be safer when dribbling actions were performed during a game. The Pass Prediction enhanced our gameplay by predicting our teammate's passing behavior, anticipating and making our agents collaborate better towards scoring goals. Finally, the Marking Decision addressed the multi-agent matching problem to improve CYRUS defensive strategy by finding an optimal solution to mark opponents' players.
翻訳日:2024-01-09 19:01:51 公開日:2024-01-07
# コンピュータビジョンによる絡み合い構造検出

Entanglement Structure Detection via Computer Vision ( http://arxiv.org/abs/2401.03400v1 )

ライセンス: Link先を確認
Rui Li, Junling Du, Zheng Qin, Shikun Zhang, Chunxiao Du, Yang Zhou and Zhisong Xiao(参考訳) 量子エンタングルメントは、様々な量子情報処理タスクにおいて重要な役割を果たす。 しかし、特に高次元および多部量子系において、絡み合い構造を検出する普遍的で効果的な方法がまだ存在しない。 多体量子状態の共通表現と画像のデータ構造との数学的類似性に注目し,高度なコンピュータビジョン技術を用いたデータ解析に着想を得た。 本研究では,GHZ と W 状態の分類と様々な絡み合い構造の検出のためのハイブリッド CNN-Transformer モデルを提案する。 CNNの特徴抽出能力とトランスフォーマーの強力なモデリング能力を活用することで、トレーニングプロセスに必要な時間と計算資源を効果的に削減できるだけでなく、高い検出精度を得ることができる。 数値シミュレーションと物理的検証により, ハイブリッドモデルが従来の手法よりも効果的であることを確認し, 多成分の絡み合いを独立に検出する強力なツールを提供する。

Quantum entanglement plays a pivotal role in various quantum information processing tasks. However, there still lacks a universal and effective way to detecting entanglement structures, especially for high-dimensional and multipartite quantum systems. Noticing the mathematical similarities between the common representations of many-body quantum states and the data structures of images, we are inspired to employ advanced computer vision technologies for data analysis. In this work, we propose a hybrid CNN-Transformer model for both the classification of GHZ and W states and the detection of various entanglement structures. By leveraging the feature extraction capabilities of CNNs and the powerful modeling abilities of Transformers, we can not only effectively reduce the time and computational resources required for the training process but also obtain high detection accuracies. Through numerical simulation and physical verification, it is confirmed that our hybrid model is more effective than traditional techniques and thus offers a powerful tool for independent detection of multipartite entanglement.
翻訳日:2024-01-09 19:01:34 公開日:2024-01-07
# 人間のタッチによるロボット能力の増幅:没入型低遅延パノラマ遠隔システム

Amplifying robotics capacities with a human touch: An immersive low-latency panoramic remote system ( http://arxiv.org/abs/2401.03398v1 )

ライセンス: Link先を確認
Junjie Li, Jian Xu, Dewei Han, Kang Li and Zhaoyuan Ma(参考訳) aiとロボティクスのテクノロジーはこの10年で著しく進歩し、様々な分野の作業パターンや機会に革命をもたらした。 これらの技術の応用は社会を人間と機械の共生の時代へと駆り立ててきた。 本研究では,人間と知的ロボットの効率的なコミュニケーションを容易にするために,没入型低遅延パノラマロボットインタラクションプラットフォーム「アバター」を提案する。 我々はエッジコンピューティングユニット、パノラマビデオキャプチャ装置、バッテリー、ロボットアーム、ネットワーク通信機器と統合された頑丈なモバイルプラットフォームのプロトタイプを設計、テストした。 良好なネットワーク条件下では357msの遅延で低遅延高精細パノラマ視体験を達成できた。 オペレーターは、ロボットやデバイスのリアルタイム没入制御にvrヘッドセットとコントローラーを利用することができる。 このシステムは、キャンパス、州、国、さらには大陸(ニューヨークから深セン)にまたがる広大な物理的な距離を遠隔操作できる。 さらにこのシステムは、地図と軌道記録のための視覚的SLAM技術を導入し、自律的なナビゲーション機能を提供する。 この直感的なシステムプラットフォームは、人間とロボットのコラボレーションにおける効率性と状況経験を高め、関連する技術のさらなる進歩により、AIと人間との効率的で共生的な協力のための汎用的なツールになるだろうと考えています。

AI and robotics technologies have witnessed remarkable advancements in the past decade, revolutionizing work patterns and opportunities in various domains. The application of these technologies has propelled society towards an era of symbiosis between humans and machines. To facilitate efficient communication between humans and intelligent robots, we propose the "Avatar" system, an immersive low-latency panoramic human-robot interaction platform. We have designed and tested a prototype of a rugged mobile platform integrated with edge computing units, panoramic video capture devices, power batteries, robot arms, and network communication equipment. Under favorable network conditions, we achieved a low-latency high-definition panoramic visual experience with a delay of 357ms. Operators can utilize VR headsets and controllers for real-time immersive control of robots and devices. The system enables remote control over vast physical distances, spanning campuses, provinces, countries, and even continents (New York to Shenzhen). Additionally, the system incorporates visual SLAM technology for map and trajectory recording, providing autonomous navigation capabilities. We believe that this intuitive system platform can enhance efficiency and situational experience in human-robot collaboration, and with further advancements in related technologies, it will become a versatile tool for efficient and symbiotic cooperation between AI and humans.
翻訳日:2024-01-09 19:01:19 公開日:2024-01-07
# 空予測 : フライトレベルの旅客交通予測のための新しいモデル

Predicting the Skies: A Novel Model for Flight-Level Passenger Traffic Forecasting ( http://arxiv.org/abs/2401.03397v1 )

ライセンス: Link先を確認
Sian Ehsani, Elina Sergeeva, Wendy Murdy, and Benjamin Fox(参考訳) フライトレベルの旅客輸送の正確な予測は、航空業務において最重要であり、価格から経路最適化への重要な決定に影響を与える。 本研究は,フライトレベルの旅客輸送を予測するための新しい多モーダル深層学習手法を導入し,従来のモデルに比べて精度が大幅に向上した。 American Airlinesの広範なデータセットを活用して、当社のモデルは、過去の交通データ、運賃情報、および各フライトに特有の季節特性を取り込みます。 提案するニューラルネットワークは,リカレントニューラルネットワーク(rnn)と畳み込みニューラルネットワーク(cnn)の強みを統合し,データ内の時間パターンと空間関係を利用して予測性能を向上させる。 私たちのモデルの成功には、包括的なデータ処理戦略が不可欠です。 データを表現するために3Dテンソルを構築し、実世界のダイナミクスを反映するために注意深いマスキング戦略を適用し、トレーニングセットの多様性を高めるためにデータ拡張技術を採用する。 提案手法の有効性は,従来のベンチマークと比較すると,平均正方形誤差(MSE)が約33倍改善したことを示す。 そこで本研究では,フライトトラフィック予測の分野を推し進める上で,深層学習技術と精巧なデータ処理の可能性を強調した。

Accurate prediction of flight-level passenger traffic is of paramount importance in airline operations, influencing key decisions from pricing to route optimization. This study introduces a novel, multimodal deep learning approach to the challenge of predicting flight-level passenger traffic, yielding substantial accuracy improvements compared to traditional models. Leveraging an extensive dataset from American Airlines, our model ingests historical traffic data, fare closure information, and seasonality attributes specific to each flight. Our proposed neural network integrates the strengths of Recurrent Neural Networks (RNN) and Convolutional Neural Networks (CNN), exploiting the temporal patterns and spatial relationships within the data to enhance prediction performance. Crucial to the success of our model is a comprehensive data processing strategy. We construct 3D tensors to represent data, apply careful masking strategies to mirror real-world dynamics, and employ data augmentation techniques to enrich the diversity of our training set. The efficacy of our approach is borne out in the results: our model demonstrates an approximate 33\% improvement in Mean Squared Error (MSE) compared to traditional benchmarks. This study, therefore, highlights the significant potential of deep learning techniques and meticulous data processing in advancing the field of flight traffic prediction.
翻訳日:2024-01-09 19:00:58 公開日:2024-01-07
# ディープラーニングに基づく画像とビデオのインペインティング:調査

Deep Learning-based Image and Video Inpainting: A Survey ( http://arxiv.org/abs/2401.03395v1 )

ライセンス: Link先を確認
Weize Quan and Jiaxi Chen and Yanli Liu and Dong-Ming Yan and Peter Wonka(参考訳) 画像とビデオのインペイントはコンピュータビジョンとコンピュータグラフィックスの古典的な問題であり、画像とビデオの欠落した領域における可視的で現実的なコンテンツを埋めることを目的としている。 ディープラーニングの進歩により、この問題は最近大きな進歩を遂げている。 本研究の目的は,深層学習に基づく画像や映像のインペイント手法を総合的に検討することである。 具体的には,既存の手法をハイレベルなインペインティングパイプラインの観点から異なるカテゴリに分類し,cnn,vae,gan,拡散モデルなど,さまざまなディープラーニングアーキテクチャを提示し,モジュール設計のための要約手法を提案する。 トレーニング目標と一般的なベンチマークデータセットについてレビューする。 本稿では,低レベル画素と高レベル知覚類似性の評価指標を示し,性能評価を行い,代表的な塗工方法の長所と短所について考察する。 関連した実世界のアプリケーションについても論じる。 最後に,オープンな課題を議論し,今後の研究の方向性を示唆する。

Image and video inpainting is a classic problem in computer vision and computer graphics, aiming to fill in the plausible and realistic content in the missing areas of images and videos. With the advance of deep learning, this problem has achieved significant progress recently. The goal of this paper is to comprehensively review the deep learning-based methods for image and video inpainting. Specifically, we sort existing methods into different categories from the perspective of their high-level inpainting pipeline, present different deep learning architectures, including CNN, VAE, GAN, diffusion models, etc., and summarize techniques for module design. We review the training objectives and the common benchmark datasets. We present evaluation metrics for low-level pixel and high-level perceptional similarity, conduct a performance evaluation, and discuss the strengths and weaknesses of representative inpainting methods. We also discuss related real-world applications. Finally, we discuss open challenges and suggest potential future research directions.
翻訳日:2024-01-09 19:00:36 公開日:2024-01-07
# dynamics-informed graph neural networkを用いたcovid-19変異発生のグローバル予測

Global Prediction of COVID-19 Variant Emergence Using Dynamics-Informed Graph Neural Networks ( http://arxiv.org/abs/2401.03390v1 )

ライセンス: Link先を確認
Majd Al Aawar, Srikar Mutnuri, Mansooreh Montazerin, Ajitesh Srivastava(参考訳) 新型コロナウイルス(COVID-19)のパンデミックで、新型ウイルスの出現が大きな要因となっている。 1つ以上の国で新しい変種が現れると、他の国はその潜在的な到着に備えてその拡散を監視します。 変種の影響と流行の時期は、変種が到着した時期に大きく依存する。 新しい変異の拡散を予測する現在の方法は、統計モデルに依存しているが、これらの方法は、新しい変異が興味のある領域に既に到達した場合にのみ機能し、有意な頻度を持つ。 問題が発生するのは: 他国に存在する変異が特定の国にいつ到着し、特定の流行に到達するか(そして、それがいつ)予測できるか? 可変力学インフォームドグラフニューラルネットワーク(GNN)を提案する。 まず,多種多様な流行モデルに適用できる一対の地域 (国) にまたがる変異集団の動態を導出する。 力学は変種比がより単純なパターンをもたらすことを示唆している。 したがって,gnnの特徴として,変動比率の比率と,ダイナミクスから推定されるパラメータの比率を用いる。 87か国36か国にまたがる変異発生予測を評価するベンチマークツールを開発した。 このツールを使用して、gnnベースのアプローチを、ダイナミクスのみのモデルと多くの機械学習モデルと比較します。 その結果、提案手法は、損失関数にダイナミクスを組み込んだ現在普及している物理情報ニューラルネットワーク(PINN)の枠組みを含む、すべてのベースラインを遡及的に上回ることを示す。

During the COVID-19 pandemic, a major driver of new surges has been the emergence of new variants. When a new variant emerges in one or more countries, other nations monitor its spread in preparation for its potential arrival. The impact of the variant and the timing of epidemic peaks in a country highly depend on when the variant arrives. The current methods for predicting the spread of new variants rely on statistical modeling, however, these methods work only when the new variant has already arrived in the region of interest and has a significant prevalence. The question arises: Can we predict when (and if) a variant that exists elsewhere will arrive in a given country and reach a certain prevalence? We propose a variant-dynamics-informed Graph Neural Network (GNN) approach. First, We derive the dynamics of variant prevalence across pairs of regions (countries) that applies to a large class of epidemic models. The dynamics suggest that ratios of variant proportions lead to simpler patterns. Therefore, we use ratios of variant proportions along with some parameters estimated from the dynamics as features in a GNN. We develop a benchmarking tool to evaluate variant emergence prediction over 87 countries and 36 variants. We leverage this tool to compare our GNN-based approach against our dynamics-only model and a number of machine learning models. Results show that the proposed dynamics-informed GNN method retrospectively outperforms all the baselines, including the currently pervasive framework of Physics-Informed Neural Networks (PINNs) that incorporates the dynamics in the loss function.
翻訳日:2024-01-09 19:00:20 公開日:2024-01-07
# ロボット物体の曖昧化のためのLLM

LLMs for Robotic Object Disambiguation ( http://arxiv.org/abs/2401.03388v1 )

ライセンス: Link先を確認
Connie Jiang, Yiqing Xu, David Hsu(参考訳) 事前訓練された大規模言語モデル(LLM)の利点は、様々な言語処理タスクにおいて明らかである。 しかし、言語モデルの知識は、オブジェクトを効果的に曖昧にし、ロボット工学の領域内で意思決定の課題をナビゲートするためにさらに活用できるだろうか? 本研究は,部分可観測マルコフ決定プロセス(pomdps)によってモデル化されることが多い複雑な意思決定課題を解決するためのllmの適性を明らかにする。 我々の研究の重要な焦点は、LLMのオブジェクト曖昧化能力である。 本稿では,LLMのテーブルトップ環境曖昧化タスクへの統合について詳述する。ロボットのタスクが任意の大きさの複雑なオブジェクトのクラスタから,ユーザの希望するオブジェクトを識別し,検索する決定問題である。 ゼロショットプロンプトエンジニアリングによる複数のクエリの試み(詳細はAppendixにある)にもかかわらず、LLMはシーン記述で明示的に提供されていない機能について問い合わせることに苦労した。 そこで我々は,不明瞭なクエリを提示するLLMの能力を改善するために,数発のプロンプトエンジニアリングシステムを開発した。 その結果、利用可能なときに与えられた特徴を使い、必要に応じて新しい特徴を推測し、同じ選択肢に直面した場合でも、正確な決定ツリーを正しいオブジェクトに生成し、ナビゲートすることが可能になる。

The advantages of pre-trained large language models (LLMs) are apparent in a variety of language processing tasks. But can a language model's knowledge be further harnessed to effectively disambiguate objects and navigate decision-making challenges within the realm of robotics? Our study reveals the LLM's aptitude for solving complex decision making challenges that are often previously modeled by Partially Observable Markov Decision Processes (POMDPs). A pivotal focus of our research is the object disambiguation capability of LLMs. We detail the integration of an LLM into a tabletop environment disambiguation task, a decision making problem where the robot's task is to discern and retrieve a user's desired object from an arbitrarily large and complex cluster of objects. Despite multiple query attempts with zero-shot prompt engineering (details can be found in the Appendix), the LLM struggled to inquire about features not explicitly provided in the scene description. In response, we have developed a few-shot prompt engineering system to improve the LLM's ability to pose disambiguating queries. The result is a model capable of both using given features when they are available and inferring new relevant features when necessary, to successfully generate and navigate down a precise decision tree to the correct object--even when faced with identical options.
翻訳日:2024-01-09 18:59:56 公開日:2024-01-07
# 量子コンピューティングと大気力学:lorenzシステムの探索

Quantum Computing and Atmospheric Dynamics: Exploring the Lorenz System ( http://arxiv.org/abs/2401.03475v1 )

ライセンス: Link先を確認
V. Armaos, Athanassios A. Argiriou, Ioannis Kioutsioukis(参考訳) 本稿では、量子コンピューティング、特に変分量子固有解法(VQE)の大気物理学研究および応用問題への潜在的貢献について、大気力学におけるカオス挙動のパラダイムであるロレンツ系を用いて検討する。 伝統的に、大気系の複雑さと非線形性は重要な計算上の課題をもたらした。 しかしながら、量子コンピューティングの出現、特にVQEアルゴリズムは、これらの問題に対する新しいアプローチを提供する。 基底状態エネルギーを決定する量子化学における効率で知られているvqeは、ロレンツ系の非エルミートヤコビ行列の解析に応用されている。 ジャコビアンを量子計算技術に応用可能にするために,エルミート化法と次元拡張法を用いる。 この研究は、ロレンツ系のヤコビアンの固有値を計算するためのVQEの適用を実証し、様々な平衡点における系の安定性に関する洞察を与える。 以上の結果から,vqeは大気物理学における複雑なシステムに対処する可能性を示す。 さらに,非エルミート行列を扱う上でのVQEの広範な意味について論じ,その実用性を対角化や特異値分解(SVD)といった操作にまで拡張し,様々な科学分野においてその汎用性を強調した。 この研究は、大気物理学におけるカオスシステムの領域を超えて、複雑で現実的な課題に取り組むための量子コンピューティングの大きな可能性を強調している。

This paper explores the potential contribution of quantum computing, specifically the Variational Quantum Eigensolver (VQE), into atmospheric physics research and application problems using as an example the Lorenz system, a paradigm of chaotic behavior in atmospheric dynamics. Traditionally, the complexity and non-linearity of atmospheric systems have presented significant computational challenges. However, the advent of quantum computing, and in particular the VQE algorithm, offers a novel approach to these problems. The VQE, known for its efficiency in quantum chemistry for determining ground state energies, is adapted in our study to analyze the non-Hermitian Jacobian matrix of the Lorenz system. We employ a method of Hermitianization and dimensionality augmentation to make the Jacobian amenable to quantum computational techniques. This study demonstrates the application of VQE in calculating the eigenvalues of the Lorenz system's Jacobian, thus providing insights into the system's stability at various equilibrium points. Our results reveal the VQE's potential in addressing complex systems in atmospheric physics. Furthermore, we discuss the broader implications of VQE in handling non-Hermitian matrices, extending its utility to operations like diagonalization and Singular Value Decomposition (SVD), thereby highlighting its versatility across various scientific fields. This research extends beyond the realm of chaotic systems in atmospheric physics, underscoring the significant potential of quantum computing to tackle complex, real-world challenges.
翻訳日:2024-01-09 18:54:00 公開日:2024-01-07
# ICMC-ASR:ICASSP 2024車載マルチチャネル音声認識チャレンジ

ICMC-ASR: The ICASSP 2024 In-Car Multi-Channel Automatic Speech Recognition Challenge ( http://arxiv.org/abs/2401.03473v1 )

ライセンス: Link先を確認
He Wang, Pengcheng Guo, Yue Li, Ao Zhang, Jiayao Sun, Lei Xie, Wei Chen, Pan Zhou, Hui Bu, Xin Xu, Binbin Zhang, Zhuo Chen, Jian Wu, Longbiao Wang, Eng Siong Chng, Sun Li(参考訳) 運転シナリオにおける音声認識研究を促進するため,ISCSLP 2022で行われたICSRC(Intelligent Cockpit Speech Recognition Challenge)の成功と,ICASSP 2024 In-car Multi-Channel Automatic Speech Recognition (ICMC-ASR) Challengeの立ち上げを行った。 この課題は、新しいエネルギー車両内で記録された100時間以上のマルチチャネル音声データと、データ拡張のための40時間以上のノイズを収集する。 評価指標として、文字誤り率(cer)と結合最小置換文字誤り率(cpcer)を用いて、自動音声認識(asr)と自動音声ダイアリゼーション・認識(asdr)を含む2つのトラックを設定する。 ICMC-ASRチャレンジは98の参加チームを集め、両方のトラックで53の有効な結果を得た。 最後に、ustciflytekはasrトラックで13.16%、asdrトラックで21.48%、チャレンジベースラインと比べて絶対的に13.08%、51.4%改善した。

To promote speech processing and recognition research in driving scenarios, we build on the success of the Intelligent Cockpit Speech Recognition Challenge (ICSRC) held at ISCSLP 2022 and launch the ICASSP 2024 In-Car Multi-Channel Automatic Speech Recognition (ICMC-ASR) Challenge. This challenge collects over 100 hours of multi-channel speech data recorded inside a new energy vehicle and 40 hours of noise for data augmentation. Two tracks, including automatic speech recognition (ASR) and automatic speech diarization and recognition (ASDR) are set up, using character error rate (CER) and concatenated minimum permutation character error rate (cpCER) as evaluation metrics, respectively. Overall, the ICMC-ASR Challenge attracts 98 participating teams and receives 53 valid results in both tracks. In the end, first-place team USTCiflytek achieves a CER of 13.16% in the ASR track and a cpCER of 21.48% in the ASDR track, showing an absolute improvement of 13.08% and 51.4% compared to our challenge baseline, respectively.
翻訳日:2024-01-09 18:53:32 公開日:2024-01-07
# PEneo: エンドツーエンドドキュメントペア抽出のためのライン抽出、ライングループ化、エンティティリンクの統合

PEneo: Unifying Line Extraction, Line Grouping, and Entity Linking for End-to-end Document Pair Extraction ( http://arxiv.org/abs/2401.03472v1 )

ライセンス: Link先を確認
Zening Lin, Jiapeng Wang, Teng Li, Wenhui Liao, Dayi Huang, Longfei Xiong, Lianwen Jin(参考訳) ドキュメントペア抽出は、キーエンティティとバリューエンティティの識別と、視覚的に豊富なドキュメントからの関連性の実現を目的としている。 既存のほとんどのメソッドは、セマンティックエンティティ認識(SER)と関係抽出(RE)の2つのタスクに分割している。 しかし、単にSERとREを直列に結合すれば、重大なエラーの伝播が起こり、実際のシナリオにおけるマルチラインエンティティのようなケースを処理できない。 そこで本稿では,新しいフレームワークであるpeneo(pair extraction new decoder option)を紹介し,統一パイプラインで文書ペア抽出を行い,行抽出,行グループ化,エンティティリンクという3つの並列サブタスクを組み込む。 このアプローチはエラーの蓄積問題を緩和し、マルチラインエンティティのケースを処理できる。 さらに、モデルの性能をよりよく評価し、ペア抽出の今後の研究を促進するために、一般的なFUNSDとXFUNDデータセットの再注釈版であるRFUNDを導入し、より正確で現実的な状況をカバーする。 様々なベンチマークの実験では、Peneoが以前のパイプラインよりも優れていることが示され、LiLTやLayoutLMv3といった様々なバックボーンと組み合わせることで、大きなマージン(例えばRFUND-ENの19.89%-22.91% F1スコア)で性能が向上した。 コードと新しいアノテーションは一般公開される予定だ。

Document pair extraction aims to identify key and value entities as well as their relationships from visually-rich documents. Most existing methods divide it into two separate tasks: semantic entity recognition (SER) and relation extraction (RE). However, simply concatenating SER and RE serially can lead to severe error propagation, and it fails to handle cases like multi-line entities in real scenarios. To address these issues, this paper introduces a novel framework, PEneo (Pair Extraction new decoder option), which performs document pair extraction in a unified pipeline, incorporating three concurrent sub-tasks: line extraction, line grouping, and entity linking. This approach alleviates the error accumulation problem and can handle the case of multi-line entities. Furthermore, to better evaluate the model's performance and to facilitate future research on pair extraction, we introduce RFUND, a re-annotated version of the commonly used FUNSD and XFUND datasets, to make them more accurate and cover realistic situations. Experiments on various benchmarks demonstrate PEneo's superiority over previous pipelines, boosting the performance by a large margin (e.g., 19.89%-22.91% F1 score on RFUND-EN) when combined with various backbones like LiLT and LayoutLMv3, showing its effectiveness and generality. Codes and the new annotations will be open to the public.
翻訳日:2024-01-09 18:52:53 公開日:2024-01-07
# FurniScene:複雑なシーンを備えた大規模3Dルームデータセット

FurniScene: A Large-scale 3D Room Dataset with Intricate Furnishing Scenes ( http://arxiv.org/abs/2401.03470v1 )

ライセンス: Link先を確認
Genghao Zhang, Yuxi Wang, Chuanchen Luo, Shibiao Xu, Junran Peng, Zhaoxiang Zhang, Man Zhang(参考訳) 屋内シーン生成はゲーム、仮想現実、インテリアデザインの応用に不可欠であるため、近年注目を集めている。 現在の屋内シーン生成手法は、合理的なルームレイアウトを生み出すことができるが、しばしば多様性やリアリズムを欠いている。 これは主に、日々の生活で小さな家具のない大きな家具を含む、既存のデータセットの限られた範囲が原因である。 これらの課題に対処するために、内部設計の専門家による複雑な家具シーンを備えた大規模な3DルームデータセットであるFurniSceneを提案する。 具体的には、FurniSceneは11,698の部屋と39,691のユニークな家具CADモデルで構成され、89種類の異なるタイプがあり、大きなベッドからコーヒーテーブルの小さなティーカップまでカバーしている。 細粒度室内シーンレイアウト生成に適合するため,新しい2段階拡散シーンモデル(tsdsm)を導入し,フルニッセンに基づく各種室内シーン生成の評価ベンチマークを行う。 定量的・質的評価は,高度にリアルな室内シーンを生成できることを示す。 データセットとコードは近く公開されます。

Indoor scene generation has attracted significant attention recently as it is crucial for applications of gaming, virtual reality, and interior design. Current indoor scene generation methods can produce reasonable room layouts but often lack diversity and realism. This is primarily due to the limited coverage of existing datasets, including only large furniture without tiny furnishings in daily life. To address these challenges, we propose FurniScene, a large-scale 3D room dataset with intricate furnishing scenes from interior design professionals. Specifically, the FurniScene consists of 11,698 rooms and 39,691 unique furniture CAD models with 89 different types, covering things from large beds to small teacups on the coffee table. To better suit fine-grained indoor scene layout generation, we introduce a novel Two-Stage Diffusion Scene Model (TSDSM) and conduct an evaluation benchmark for various indoor scene generation based on FurniScene. Quantitative and qualitative evaluations demonstrate the capability of our method to generate highly realistic indoor scenes. Our dataset and code will be publicly available soon.
翻訳日:2024-01-09 18:52:06 公開日:2024-01-07
# OCLと検索によるMC/DCの効率的なテストデータ生成

Efficient Test Data Generation for MC/DC with OCL and Search ( http://arxiv.org/abs/2401.03469v1 )

ライセンス: Link先を確認
Hassan Sartaj, Muhammad Zohaib Iqbal, Atif Aftab Ahmed Jilani, and Muhammad Uzair Khan(参考訳) avionicsソフトウェアシステムのシステムレベルでのテストには、do-178cのような異なる国際安全基準に準拠する必要がある。 avionics産業における重要な考慮事項は、安全基準が示す基準に従って自動テストデータ生成である。 DO-178Cの推奨基準の1つは、修正条件/決定カバレッジ(MC/DC)基準である。 現在のモデルベースのテストデータ生成アプローチでは、オブジェクト制約言語(ocl)で記述された制約を使用し、テストデータを生成するために検索技術を適用する。 これらのアプローチはMC/DC基準をサポートしないか、大規模アビオニクスシステムのテストデータを生成する際にパフォーマンスの問題に悩まされる。 本稿では,モデルベーステストにおけるMC/DCテストデータの自動生成手法を提案する。 ケースベース推論 (CBR) と範囲縮小ヒューリスティックスを用いて, MC/DC に適合した OCL 制約を解く手法を開発した。 我々は,CBRを用いたMC/DCテストデータ生成のための提案手法と,CBRと範囲縮小の双方を,元の探索アルゴリズムとランダム検索と比較する実験的検討を行った。 また、既存の制約解決アプローチと戦略を実証的に比較しました。 その結果, MC/DCテストデータ生成におけるCBRと範囲の低減は, ベースライン法よりも優れていた。 さらに, MC/DCテストデータ生成におけるCBRと範囲削減の組み合わせは, 既存の制約解法と比較して有効である。

System-level testing of avionics software systems requires compliance with different international safety standards such as DO-178C. An important consideration of the avionics industry is automated test data generation according to the criteria suggested by safety standards. One of the recommended criteria by DO-178C is the modified condition/decision coverage (MC/DC) criterion. The current model-based test data generation approaches use constraints written in Object Constraint Language (OCL), and apply search techniques to generate test data. These approaches either do not support MC/DC criterion or suffer from performance issues while generating test data for large-scale avionics systems. In this paper, we propose an effective way to automate MC/DC test data generation during model-based testing. We develop a strategy that utilizes case-based reasoning (CBR) and range reduction heuristics designed to solve MC/DC-tailored OCL constraints. We performed an empirical study to compare our proposed strategy for MC/DC test data generation using CBR, range reduction, both CBR and range reduction, with an original search algorithm, and random search. We also empirically compared our strategy with existing constraint-solving approaches. The results show that both CBR and range reduction for MC/DC test data generation outperform the baseline approach. Moreover, the combination of both CBR and range reduction for MC/DC test data generation is an effective approach compared to existing constraint solvers.
翻訳日:2024-01-09 18:51:35 公開日:2024-01-07
# デジタル時代のジャーナリズムの整合性を維持する:オンラインニュースコンテンツ評価のための総合的NLPフレームワーク

Maintaining Journalistic Integrity in the Digital Age: A Comprehensive NLP Framework for Evaluating Online News Content ( http://arxiv.org/abs/2401.03467v1 )

ライセンス: Link先を確認
Ljubisa Bojic, Nikola Prodanovic, Agariadne Dwinggo Samala(参考訳) オンラインニュースプラットフォームの急速な成長は、ニュース記事の品質と信頼性を評価するための信頼性の高い方法の必要性を高めた。 本稿では、自然言語処理(NLP)技術、特にこの目的のために特別に訓練された言語モデルを用いて、オンラインニューステキストを解析するための包括的フレームワークを提案する。 このフレームワークには10のジャーナリズム標準、バランスと公正性、読みやすさと明快さ、センセーショナルとクリックベイト、倫理的考察、公共の関心と価値、情報源の信頼性、妥当性とタイムライン、事実の正確性、帰属性、透明性を取り入れ、ニュース記事の品質を評価する。 これらの標準を確立することで、研究者、メディア組織、読者は、彼らが消費するコンテンツを評価し、理解することができる。 提案手法には,微妙なバイアスを検出することの困難さや,進化する言語パターンに追従する言語モデルの継続的な更新の必要性など,いくつかの制限がある。

The rapid growth of online news platforms has led to an increased need for reliable methods to evaluate the quality and credibility of news articles. This paper proposes a comprehensive framework to analyze online news texts using natural language processing (NLP) techniques, particularly a language model specifically trained for this purpose, alongside other well-established NLP methods. The framework incorporates ten journalism standards-objectivity, balance and fairness, readability and clarity, sensationalism and clickbait, ethical considerations, public interest and value, source credibility, relevance and timeliness, factual accuracy, and attribution and transparency-to assess the quality of news articles. By establishing these standards, researchers, media organizations, and readers can better evaluate and understand the content they consume and produce. The proposed method has some limitations, such as potential difficulty in detecting subtle biases and the need for continuous updating of the language model to keep pace with evolving language patterns.
翻訳日:2024-01-09 18:50:37 公開日:2024-01-07
# 一般化不確かさ原理によるクーロンポテンシャルの量子補正について

On Some Quantum Correction to the Coulomb Potential in Generalized Uncertainty Principle Approach ( http://arxiv.org/abs/2401.03463v1 )

ライセンス: Link先を確認
M. Baradaran, L.M. Nieto, and S. Zarrinkamar(参考訳) 量子力学と重力の統一理論の重要性とプランクスケールの順序の最小長の存在を考慮すると、量子情報の領域から大規模物理学への応用を見出す一般化された不確実性原理から生じる修正シュリンガー方程式を、量子力学的に修正された重力相互作用を非常に最近提案した。 結果として得られる方程式は、ユンやリー代数を含む一般的な正確なアプローチでは解けないので、ベイテ・アンザッツのアプローチを提案し、それを適用し、その結果を議論する。

Taking into account the importance of the unified theory of quantum mechanics and gravity, and the existence of a minimum length of the order of the Planck scale, we consider a modified Schr\"odinger equation resulting from a generalised uncertainty principle, which finds applications from the realm of quantum information to large-scale physics, with a quantum mechanically corrected gravitational interaction proposed very recently. As the resulting equation cannot be solved by common exact approaches, including Heun or Lie algebraic ones, we propose a Bethe-Ansatz approach, which will be applied and whose results we discuss.
翻訳日:2024-01-09 18:50:13 公開日:2024-01-07
# 4kから400kへ:アクティベーションビーコンでllmのコンテキストを拡張する

Soaring from 4K to 400K: Extending LLM's Context with Activation Beacon ( http://arxiv.org/abs/2401.03462v1 )

ライセンス: Link先を確認
Peitian Zhang, Zheng Liu, Shitao Xiao, Ninglu Shao, Qiwei Ye, Zhicheng Dou(参考訳) 長いコンテキストの利用は、コンテキストウィンドウの長さが限られているため、大きな言語モデルにとって大きな課題となる。 コンテキストウィンドウは微調整で拡張できるが、トレーニングと推論の時間の両方でかなりのコストがかかり、LLMの本来の能力に好ましくない影響を及ぼすことになる。 本研究では, LLM の生活性化をよりコンパクトな形式に凝縮し, 限られたコンテキストウィンドウでより長いコンテキストを知覚できる Activation Beacon を提案する。 Activation Beacon は LLM のプラグイン・アンド・プレイモジュールとして導入された。 LLMの本来の機能を短いコンテキストで完全に保存し、長いコンテキストを処理する上で新しい機能を拡張する。 さらに、短いスライディングウィンドウを使って長いコンテキストを処理し、トレーニングと推論の両方において競合するメモリと時間の効率を達成する。 アクティベーションビーコンは、ビーコンと多量凝縮比の混合により条件付けられた自己回帰タスクによって学習される。 このような処理のおかげで、1台の8xa800 gpuマシンで9時間未満の、わずか10kステップの短いシーケンスデータで、効率的にトレーニングすることができる。 実験により、アクティベーションビーコンはLlama-2-7Bのコンテキスト長を$\times100$(4Kから400K)で拡張でき、長いコンテキスト生成と理解タスクの両方において優れた結果が得られることが示された。 私たちのモデルとコードは、BGEリポジトリで利用可能になります。

The utilization of long contexts poses a big challenge for large language models due to their limited context window length. Although the context window can be extended through fine-tuning, it will result in a considerable cost at both training and inference time, and exert an unfavorable impact to the LLM's original capabilities. In this work, we propose Activation Beacon, which condenses LLM's raw activations into more compact forms such that it can perceive a much longer context with a limited context window. Activation Beacon is introduced as a plug-and-play module for the LLM. It fully preserves the LLM's original capability on short contexts while extending the new capability on processing longer contexts. Besides, it works with short sliding windows to process the long context, which achieves a competitive memory and time efficiency in both training and inference. Activation Beacon is learned by the auto-regression task conditioned on a mixture of beacons with diversified condensing ratios. Thanks to such a treatment, it can be efficiently trained purely with short-sequence data in just 10K steps, which consumes less than 9 hours on a single 8xA800 GPU machine. The experimental studies show that Activation Beacon is able to extend Llama-2-7B's context length by $\times100$ times (from 4K to 400K), meanwhile achieving a superior result on both long-context generation and understanding tasks. Our model and code will be available at the BGE repository.
翻訳日:2024-01-09 18:49:50 公開日:2024-01-07
# メタバースにおけるニューメディア依存の増幅

Amplification of Addictive New Media Features in the Metaverse ( http://arxiv.org/abs/2401.03461v1 )

ライセンス: Link先を確認
Ljubisa Bojic, Joerg Matthes, Milan Cabarkapa(参考訳) 境界のない人間の相互作用を促進する超現実の仮想宇宙として構想されたメタバースの出現は、私たちのメディア概念に革命をもたらし、依存症、創造性、関係性、社会分極に大きな影響を与える。 本稿では,その没入的かつインタラクティブな特徴からメタバースの中毒性の可能性を見極め,その推奨システムが創造性と社会的分極に及ぼす影響を精査し,メタバースの発達に起因する可能性を探る。 文献レビュー手法を用いて,新たなメディアプラットフォームの研究とメディアにおける現実模倣機能の進展を歴史的視点から検討し,この変革的デジタルフロンティアを理解する。 この発見は、これらの没入的かつインタラクティブな機能は、メディア依存を悪化させる可能性があることを示唆している。 デザインされた推薦システムは、パーソナライズとユーザエンゲージメントを支援する一方で、社会的分極に寄与し、創造的なアウトプットの多様性に影響を与える可能性がある。 しかし,本論文の結論は,既存のメディアプラットフォームで実施した研究の理論的提案に基づいており,メタバースに特有の実証的サポートが欠如している。 そこで本稿では,メタバース利用と依存,プライバシ,セキュリティ,倫理的影響の探求に焦点をあてた実証研究を通じて,さらなる研究が必要となる重要なギャップを明らかにする。 メタバースの発展が加速するにつれて、研究者、技術者、政策立案者は、イノベーションと社会的幸福のバランスをとるために、その多層的影響を慎重にナビゲートする。

The emergence of the metaverse, envisioned as a hyperreal virtual universe facilitating boundless human interaction, stands to revolutionize our conception of media, with significant impacts on addiction, creativity, relationships, and social polarization. This paper aims to dissect the addictive potential of the metaverse due to its immersive and interactive features, scrutinize the effects of its recommender systems on creativity and social polarization, and explore potential consequences stemming from the metaverse development. We employed a literature review methodology, drawing parallels from the research on new media platforms and examining the progression of reality-mimicking features in media from historical perspectives to understand this transformative digital frontier. The findings suggest that these immersive and interactive features could potentially exacerbate media addiction. The designed recommender systems, while aiding personalization and user engagement, might contribute to social polarization and affect the diversity of creative output. However, our conclusions are based primarily on theoretical propositions from studies conducted on existing media platforms and lack empirical support specific to the metaverse. Therefore, this paper identifies a critical gap requiring further research, through empirical studies focused on metaverse use and addiction and exploration of privacy, security, and ethical implications associated with this burgeoning digital universe. As the development of the metaverse accelerates, it is incumbent on scholars, technologists, and policymakers to navigate its multilayered impacts thoughtfully to balance innovation with societal well-being.
翻訳日:2024-01-09 18:49:26 公開日:2024-01-07
# bclnet: 2視点対応pruningのための双方向コンセンサス学習

BCLNet: Bilateral Consensus Learning for Two-View Correspondence Pruning ( http://arxiv.org/abs/2401.03459v1 )

ライセンス: Link先を確認
Xiangyang Miao, Guobao Xiao, Shiping Wang, Jun Yu(参考訳) 対応プルーニングは、2つの関連画像間の信頼できる対応を確立し、相対的なカメラの動きを復元することを目的としている。 既存のアプローチでは、ローカルとグローバルのコンテキストを扱うためにプログレッシブな戦略を採用しており、ローカルからグローバルへの移行に重点を置いており、結果として異なるコンテキスト間の相互作用が無視される。 この問題に対処するために,2視点対応型プルーニングタスクにおいて,双方向のコンセンサスを取得するための並列コンテキスト学習戦略を提案する。 提案手法では,グローバルなコンテキストと並列処理を確立されたローカルなコンテキスト学習モジュールで行うことで,ローカルなコンセンサスとグローバルなコンセンサスの両方を同時にキャプチャする,ユニークな自己注意ブロックを設計する。 これらの地域的およびグローバルなコンセンサスを組み合わせることで、必要な二国間コンセンサスを導出する。 また、再校正ブロックを設計し、誤ったコンセンサス情報の影響を低減し、モデルの堅牢性を高める。 BCLNet(Bilateral Consensus Learning Network)は,カメラのポーズを効率的に推定し,不整合(真の対応)を識別するネットワークである。 大規模な実験の結果、我々のネットワークはベンチマークデータセットの最先端の手法を超えるだけでなく、様々な特徴抽出技術にまたがる堅牢な一般化能力も示している。 注目すべきは、bclnetは未知の屋外データセットで2番目に良い方法よりも3.98\% map5$^{\circ}$ゲインを取得し、明らかにモデルのトレーニング速度を加速する。 ソースコードはhttps://github.com/guobaoxiao/bclnet。

Correspondence pruning aims to establish reliable correspondences between two related images and recover relative camera motion. Existing approaches often employ a progressive strategy to handle the local and global contexts, with a prominent emphasis on transitioning from local to global, resulting in the neglect of interactions between different contexts. To tackle this issue, we propose a parallel context learning strategy that involves acquiring bilateral consensus for the two-view correspondence pruning task. In our approach, we design a distinctive self-attention block to capture global context and parallel process it with the established local context learning module, which enables us to simultaneously capture both local and global consensuses. By combining these local and global consensuses, we derive the required bilateral consensus. We also design a recalibration block, reducing the influence of erroneous consensus information and enhancing the robustness of the model. The culmination of our efforts is the Bilateral Consensus Learning Network (BCLNet), which efficiently estimates camera pose and identifies inliers (true correspondences). Extensive experiments results demonstrate that our network not only surpasses state-of-the-art methods on benchmark datasets but also showcases robust generalization abilities across various feature extraction techniques. Noteworthily, BCLNet obtains 3.98\% mAP5$^{\circ}$ gains over the second best method on unknown outdoor dataset, and obviously accelerates model training speed. The source code will be available at: https://github.com/guobaoxiao/BCLNet.
翻訳日:2024-01-09 18:48:58 公開日:2024-01-07
# 計算引数に基づくチャットボット:サーベイ

Computational Argumentation-based Chatbots: a Survey ( http://arxiv.org/abs/2401.03454v1 )

ライセンス: Link先を確認
Federico Castagna, Nadin Kokciyan, Isabel Sassoon, Simon Parsons, Elizabeth Sklar(参考訳) チャットボットは、さまざまな目的のために、ユーザーと方言的に対話するように設計された会話型ソフトウェアアプリケーションである。 驚くべきことに、これらの口語的エージェントは、人間のコミュニケーションを特徴付ける情報の通常の交換である機械可読形式で形式化することを目的としている引数の計算モデル(すなわち、計算的議論)と最近結合されたばかりである。 チャットボットは、異なる度合いと様々な方法で議論を用いることができる。 本研究は,このような議論に基づくボットに関する論文をレビューするために文献を精査し,従来のチャットボットと比較して,このアプローチが持つメリットと欠点について考察するとともに,トランスフォーマベースのアーキテクチャと最先端の大規模言語モデルとの今後の開発と統合の可能性について考察する。

Chatbots are conversational software applications designed to interact dialectically with users for a plethora of different purposes. Surprisingly, these colloquial agents have only recently been coupled with computational models of arguments (i.e. computational argumentation), whose aim is to formalise, in a machine-readable format, the ordinary exchange of information that characterises human communications. Chatbots may employ argumentation with different degrees and in a variety of manners. The present survey sifts through the literature to review papers concerning this kind of argumentation-based bot, drawing conclusions about the benefits and drawbacks that this approach entails in comparison with standard chatbots, while also envisaging possible future development and integration with the Transformer-based architecture and state-of-the-art Large Language models.
翻訳日:2024-01-09 18:48:28 公開日:2024-01-07
# トレーニングされたニューラルネットワークによる最適化: リラックスした散歩

Optimization Over Trained Neural Networks: Taking a Relaxing Walk ( http://arxiv.org/abs/2401.03451v1 )

ライセンス: Link先を確認
Jiatai Tong and Junyang Cai and Thiago Serra(参考訳) トレーニングに加えて、数学の最適化は、学習された制約による検証、圧縮、最適化などの目的のために、トレーニングされたニューラルネットワーク上での定式化をモデル化し、解決するために、ディープラーニングでも使用される。 しかし, 弱線形緩和と密集した制約行列によりネットワークサイズが大きくなると, これらの定式化の解決はすぐに困難になる。 近年, 切削平面アルゴリズム, 修正, 混合整数線形計画法(MILP)に基づくヒューリスティックが改良されている。 本研究では,ニューラルネットワークモデルの大域的および局所的線形緩和を探索し,よりスケーラブルなヒューリスティックを提案する。 我々のヒューリスティックは、最先端MILPソルバと先行ヒューリスティックと競合し、入力、深さ、ニューロン数の増加によるより良い解を生成する。

Besides training, mathematical optimization is also used in deep learning to model and solve formulations over trained neural networks for purposes such as verification, compression, and optimization with learned constraints. However, solving these formulations soon becomes difficult as the network size grows due to the weak linear relaxation and dense constraint matrix. We have seen improvements in recent years with cutting plane algorithms, reformulations, and an heuristic based on Mixed-Integer Linear Programming (MILP). In this work, we propose a more scalable heuristic based on exploring global and local linear relaxations of the neural network model. Our heuristic is competitive with a state-of-the-art MILP solver and the prior heuristic while producing better solutions with increases in input, depth, and number of neurons.
翻訳日:2024-01-09 18:48:13 公開日:2024-01-07
# 任意の数の射影的ビューに対する批判的構成の分類

A Classification of Critical Configurations for any Number of Projective Views ( http://arxiv.org/abs/2401.03450v1 )

ライセンス: Link先を確認
Martin Br{\aa}telund(参考訳) structure from motionは、一連の画像からカメラと3dシーンに関する情報を復元するプロセスである。 一般に、ノイズのない環境では、十分な画像と画像ポイントが提供されると、すべての情報を一意に復元することができる。 しかし、理論上も独特な回復が不可能な場合もあり、これらはクリティカルな構成と呼ばれる。 我々は最近開発された代数的手法を用いて、射影カメラの全ての重要な構成を分類する。 二次曲面や次数曲線などのよく知られた代数多様体を少なくとも4で成すことを示す。 また,これまで不明であったクリティカルな構成と,それ以前に重要と考えられていた構成が実際にはそうではないことを示すことによって,以前の結果を改善する。

Structure from motion is the process of recovering information about cameras and 3D scene from a set of images. Generally, in a noise-free setting, all information can be uniquely recovered if enough images and image points are provided. There are, however, certain cases where unique recovery is impossible, even in theory; these are called critical configurations. We use a recently developed algebraic approach to classify all critical configurations for any number of projective cameras. We show that they form well-known algebraic varieties, such as quadric surfaces and curves of degree at most 4. This paper also improves upon earlier results both by finding previously unknown critical configurations and by showing that some configurations previously believed to be critical are in fact not.
翻訳日:2024-01-09 18:47:56 公開日:2024-01-07
# specref: 特定の参照条件の実画像編集の高速トレーニングフリーベースライン

SpecRef: A Fast Training-free Baseline of Specific Reference-Condition Real Image Editing ( http://arxiv.org/abs/2401.03433v1 )

ライセンス: Link先を確認
Songyan Chen, Jiancheng Huang(参考訳) 大規模拡散生成モデルに基づくテキスト条件画像編集は,産業と研究コミュニティの両方の注目を集めている。 既存のメソッドのほとんどは参照なしの編集であり、ユーザーはソースイメージとテキストプロンプトしか提供できない。 しかし、編集結果の特徴に対するユーザの制御は制限される。 ユーザの自由度を高めるために,特定の参照条件を実画像編集と呼ぶ新しいタスクを提案する。 そこで我々はSpecRefという高速なベースライン手法を提案する。 具体的には、参照画像の特徴を取り入れた特定参照注意制御を設計し、編集領域と非編集領域の干渉を防止するマスク機構を採用する。 典型的な編集作業においてSpecRefを評価し,良好な性能が得られることを示す。 ソースコードはhttps://github.com/jingjiqinggong/specp2pで入手できる。

Text-conditional image editing based on large diffusion generative model has attracted the attention of both the industry and the research community. Most existing methods are non-reference editing, with the user only able to provide a source image and text prompt. However, it restricts user's control over the characteristics of editing outcome. To increase user freedom, we propose a new task called Specific Reference Condition Real Image Editing, which allows user to provide a reference image to further control the outcome, such as replacing an object with a particular one. To accomplish this, we propose a fast baseline method named SpecRef. Specifically, we design a Specific Reference Attention Controller to incorporate features from the reference image, and adopt a mask mechanism to prevent interference between editing and non-editing regions. We evaluate SpecRef on typical editing tasks and show that it can achieve satisfactory performance. The source code is available on https://github.com/jingjiqinggong/specp2p.
翻訳日:2024-01-09 18:47:44 公開日:2024-01-07
# See360: 新しいパノラマビュー補間

See360: Novel Panoramic View Interpolation ( http://arxiv.org/abs/2401.03431v1 )

ライセンス: Link先を確認
Zhi-Song Liu, Marie-Paule Cani, Wan-Chi Siu(参考訳) 潜在空間視点推定を用いた360パノラマビュー補間のための汎用的で効率的なフレームワークであるSee360を提案する。 既存のビューレンダリングアプローチのほとんどは、屋内または合成3d環境のみに焦点を当て、小さなオブジェクトの新しいビューをレンダリングする。 対照的に、点雲や深度マップを使わずに2次元アフィン変換としてカメラ中心のビュー合成に取り組むことを提案する。 パノラマシーンの探索。 参照画像のペアを与えられたSee360モデルは、提案された新しいマルチスケールアフィン変換器(MSAT)によって新しいビューのレンダリングを学習し、粗い特徴のレンダリングを可能にする。 また,任意の角度で視線補間を行うための条件付きラテント空間オートエンコーダ(C-LAE)を提案する。 本手法の汎用性を示すために,本手法では,実演と合成の両面で屋内および屋外の環境から収集される,urbancity360,archinterior360,hanghom360,lab360の4つのトレーニングデータセットを導入する。 実験の結果,提案手法は4つのデータセットの任意のビューのリアルタイムレンダリングを実現するのに十分な汎用性を示した。 さらに、私たちのSee360モデルは、短いトレーニング時間(約10分)だけで、未知の現実世界のシーンをレンダリングできる、野生での合成を見るために応用できます。 See360の優れた性能は、カメラ中心のビューレンダリングと360パノラマビュー補間に期待できる方向を開く。

We present See360, which is a versatile and efficient framework for 360 panoramic view interpolation using latent space viewpoint estimation. Most of the existing view rendering approaches only focus on indoor or synthetic 3D environments and render new views of small objects. In contrast, we suggest to tackle camera-centered view synthesis as a 2D affine transformation without using point clouds or depth maps, which enables an effective 360? panoramic scene exploration. Given a pair of reference images, the See360 model learns to render novel views by a proposed novel Multi-Scale Affine Transformer (MSAT), enabling the coarse-to-fine feature rendering. We also propose a Conditional Latent space AutoEncoder (C-LAE) to achieve view interpolation at any arbitrary angle. To show the versatility of our method, we introduce four training datasets, namely UrbanCity360, Archinterior360, HungHom360 and Lab360, which are collected from indoor and outdoor environments for both real and synthetic rendering. Experimental results show that the proposed method is generic enough to achieve real-time rendering of arbitrary views for all four datasets. In addition, our See360 model can be applied to view synthesis in the wild: with only a short extra training time (approximately 10 mins), and is able to render unknown real-world scenes. The superior performance of See360 opens up a promising direction for camera-centered view rendering and 360 panoramic view interpolation.
翻訳日:2024-01-09 18:47:31 公開日:2024-01-07
# トケンフリーのLLMは、より正確なフォーマットで中国古典詩を生成できる

Token-free LLMs Can Generate Chinese Classical Poetry with More Accurate Format ( http://arxiv.org/abs/2401.03512v1 )

ライセンス: Link先を確認
Chengyue Yu, Lei Zang, Jiaotuan Wang, Chenyi Zhuang, Jinjie Gu(参考訳) 微調整された大きな言語モデル(chatgptやqwen-chatなど)は、人間の指示に従って中国の古典詩を生成することができる。 LLMは内容的には良好に機能するが、通常フォーマットに欠けており、各行の文字数が時折過剰または不足している。 多くのSOTA LLMはトークンベースであるため、フォーマットの不正確さは「トークン計画」タスクの難しさによるものと仮定する。 本稿では,既存のトークンベース大規模言語モデルにおいて,トークン-文字関係に関する知識が限られていることを示す。 我々はスペルミツバチ探索法を用いて,Qwen-chatが約15%の中国語スペルテストで失敗したことを発見した。 次に、トークンベースのモデルを(中国語で)トークンフリーモデルに容易に調整できることを示し、フォーマット精度の問題を大幅に解決できる。 我々の調整手順は語彙から長いトークンを取り除き、文字レベルまたはバイトレベルのトークンのみを保持する。 コントリビューションの一環として,LLMのような複雑な命令(ストーリーパラフレージングなど)に従って中国語の古典詩を生成でき,形式的にも良好に機能する,微調整のトークンフリーモデル(Qwen-chat-7Bをベースとする)をリリースする。 テストセットでは,トークンフリーモデルでは0.96,トークンベースモデルでは0.84,GPT-4では0.38であった。

Finetuned large language models (such as ChatGPT and Qwen-chat) can generate Chinese classical poetry following human's instructions. LLMs perform well in content, but are usually lacking in format, with occasionally excess or insufficient number of characters in each line. Since most SOTA LLMs are token-based, we assume that the format inaccuracy is due to the difficulty of the "token planning" task, which means that the LLM need to know exactly how much characters are contained in each token and do length-control planning based on that knowledge. In this paper, we first confirm our assumption by showing that existing token-based large language models has limited knowledge on token-character relationship. We use a spelling bee probing procedure, and find that Qwen-chat failed in nearly 15% Chinese spelling test. We then show that a token-based model can be easily tailored into a token-free model (in terms of Chinese), which can largely solve the format accuracy problem. Our tailoring procedure removes long-token from vocabulary and keeps only character-level or byte-level tokens. As part of our contribution, we release the finetuned token-free model (which is based on Qwen-chat-7B), which can generate chinese classical poetry following complex instructions like LLMs (such as story paraphrasing), and also perform well in format. On the test set, our token-free model achives an format accuracy of 0.96, compared to 0.84 for token-based counterparts and 0.38 for GPT-4.
翻訳日:2024-01-09 18:40:58 公開日:2024-01-07
# 非古典的量子資源の普遍同定としてのカークウッド・ディラック型準確率

Kirkwood-Dirac Type Quasiprobabilities as Universal Identifiers of Nonclassical Quantum Resources ( http://arxiv.org/abs/2401.03508v1 )

ライセンス: Link先を確認
Kok Chuan Tan and Souradeep Sasmal(参考訳) カークウッド-ディラック型準確率分布は任意の量子資源を明らかにするのに十分であることを示す。 これは、リソースフル状態と非リソースフル状態を区別する非互換な測定セットを常に特定できることを実証することで達成される。 準確率性は、厳密な負の数値で少なくとも1つの準確率結果を持つことで、有理量子状態を明らかにする。 また、常に準確率分布が存在し、全負性度は、資源の多い量子状態から最も近い非資源状態までの幾何学的距離と解釈できることを示す。 また、ウィグナー分布のようなカークウッド-ディラック型準確率分布は、準確率結果が負であるときに非古典性を同時に明らかにしながら量子状態に関する完全な情報を提供できるという意味で、情報的に完備化することができる。 さらに, 準確率分布が負のとき, 十分に強い異常値が存在することを実証し, 準確率分布を実験的に検証する方法を提案する。 準確率が負になるためには、相反する測定が必要となるため、この結果は、非古典的量子リソースを利用することで得られる任意の量子長所が測定不能となることを示唆する。

We show that a Kirkwood-Dirac type quasiprobability distribution is sufficient to reveal any arbitrary quantum resource. This is achieved by demonstrating that it is always possible to identify a set of incompatible measurements that distinguishes between resourceful states and nonresourceful states. The quasiprobability reveals a resourceful quantum state by having at least one quasiprobabilty outcome with a strictly negative numerical value. We also show that there always exists a quasiprobabilty distribution where the total negativity can be interpreted as the geometric distance between a resourceful quantum state to the closest nonresourceful state. It can also be shown that Kirkwood-Dirac type quasiprobability distributions, like the Wigner distribution, can be made informationally complete, in the sense that it can provide complete information about the quantum state while simultaneously revealing nonclassicality whenever a quasiprobability outcome is negative. Moreover, we demonstrate the existence of sufficiently strong anomalous weak values whenever the quasiprobability distribution is negative, which suggests a means to experimentally test such quasiprobability distributions. Since incompatible measurements are necessary in order for the quasiprobability to be negative, this result suggests that measurement incompatibility may underlie any quantum advantage gained from utilizing a nonclassical quantum resource
翻訳日:2024-01-09 18:40:31 公開日:2024-01-07
# diarizationlm:大規模言語モデルを用いた話者ダイアリゼーション後処理

DiarizationLM: Speaker Diarization Post-Processing with Large Language Models ( http://arxiv.org/abs/2401.03506v1 )

ライセンス: Link先を確認
Quan Wang, Yiling Huang, Guanlong Zhao, Evan Clark, Wei Xia, Hank Liao(参考訳) 本稿では,大言語モデル(LLM)を利用して話者ダイアリゼーションシステムから出力を後処理するフレームワークであるダイアリゼーションLMを紹介する。 提案するフレームワークでは,ダイアリゼーション文字の可読性の向上や,単語ダイアリゼーション誤り率(WDER)の低減など,さまざまな目標を達成することができる。 この枠組みでは、自動音声認識(asr)および話者ダイアリゼーションシステムの出力を、任意に微調整されたllmへのプロンプトに含まれるコンパクトテキスト形式として表現する。 LLMの出力は、所望の増強で精製ダイアリゼーション結果として用いることができる。 処理後ステップとして、このフレームワークは既存のコンポーネントを再トレーニングすることなく、任意の既製のasrおよび話者ダイアリゼーションシステムに容易に適用できる。 実験の結果,微調整された PaLM 2-S モデルにより WDER を rel で低減できることがわかった。 Fisher 電話の会話データセットの25.9%、rel。 31%であった。

In this paper, we introduce DiarizationLM, a framework to leverage large language models (LLM) to post-process the outputs from a speaker diarization system. Various goals can be achieved with the proposed framework, such as improving the readability of the diarized transcript, or reducing the word diarization error rate (WDER). In this framework, the outputs of the automatic speech recognition (ASR) and speaker diarization systems are represented as a compact textual format, which is included in the prompt to an optionally finetuned LLM. The outputs of the LLM can be used as the refined diarization results with the desired enhancement. As a post-processing step, this framework can be easily applied to any off-the-shelf ASR and speaker diarization systems without retraining existing components. Our experiments show that a finetuned PaLM 2-S model can reduce the WDER by rel. 25.9% on the Fisher telephone conversation dataset, and rel. 31% on the Callhome English dataset.
翻訳日:2024-01-09 18:40:09 公開日:2024-01-07
# ハーディ違反による局所リアリズムの抜け穴フリーテスト

Loophole-free test of local realism via Hardy's violation ( http://arxiv.org/abs/2401.03505v1 )

ライセンス: Link先を確認
Si-Ran Zhao, Shuai Zhao, Hai-Hao Dong, Wen-Zhao Liu, Jing-Ling Chen, Kai Chen, Qiang Zhang and Jian-Wei Pan(参考訳) ベルの定理は、物理量に関する量子力学的記述が局所現実理論によって完全に説明できないことを示し、様々な量子情報応用に確かな基礎を置く。 ハーディのパラドックスは、ベルの定理の最も単純な形であり、局所実在論をテストするための「すべて対無」な方法である。 しかし、実験的な不完全性のため、ハーディのパラドックスの既存のテストは実験システムの追加の仮定を必要とし、これは局所現実理論を忠実にテストするための潜在的な抜け穴を構成する。 ここでは,フォトニックエンタングルメント源を用いてハーディの非局所性を実験的に証明する。 検出効率が82.2\%$、量子状態忠実度が99.10\%$に達し、高速な量子乱数発生器を設定切替の測定に適用することにより、この実験はループホールのない方法で実施される。 実行時間6ドルの間、$p_{\text{hardy}}=4.646\times 10^{-4}$の強い違反は、標準偏差が5ドルまでで、4.32\times 10^{9}$トライアルで観察される。 ヌル仮説テストは、この結果は、上限確率が10^{-16348}$の局所現実理論によって説明できることを示している。 これらのテスト結果は局所実在論に対する肯定的な証拠を示し、ハーディのパラドックスに基づく量子情報応用のための進歩的なベンチマークを提供する。

Bell's theorem states that quantum mechanical description on physical quantity cannot be fully explained by local realistic theories, and lays solid basis for various quantum information applications. Hardy's paradox is celebrated to be the simplest form of Bell's theorem concerning its "All versus Nothing" way to test local realism. However, due to experimental imperfections, existing tests of Hardy's paradox require additional assumptions of experimental systems, which constitute potential loopholes for faithfully testing local realistic theories. Here, we experimentally demonstrate Hardy's nonlocality through a photonic entanglement source. By achieving a detection efficiency of $82.2\%$, a quantum state fidelity of $99.10\%$ and applying high speed quantum random number generators for measurement setting switching, the experiment is implemented in a loophole-free manner. During $6$ hours of running, a strong violation of $P_{\text{Hardy}}=4.646\times 10^{-4}$ up to $5$ standard deviations is observed with $4.32\times 10^{9}$ trials. A null hypothesis test shows that the results can be explained by local realistic theories with an upper bound probability of $10^{-16348}$. These testing results present affirmative evidence against local realism, and provide an advancing benchmark for quantum information applications based on Hardy's paradox.
翻訳日:2024-01-09 18:39:53 公開日:2024-01-07
# ClusterComm: 内部表現クラスタリングを用いた分散MARLにおける離散通信

ClusterComm: Discrete Communication in Decentralized MARL using Internal Representation Clustering ( http://arxiv.org/abs/2401.03504v1 )

ライセンス: Link先を確認
Robert M\"uller, Hasan Turalic, Thomy Phan, Michael K\"olle, Jonas N\"u{\ss}lein, Claudia Linnhoff-Popien(参考訳) MARL(Multi-Agent Reinforcement Learning)の領域では、一般的なアプローチは、人間の学習、堅牢性、スケーラビリティと整合する際の欠点を示す。 そこで我々は,エージェントが中央制御ユニットを使わずに離散的に通信する,完全に分散したmarlフレームワークであるclustercommを紹介する。 ClusterCommは、エージェントのポリシネットワークのアクティベーションを最後に隠されたレイヤ上で、Mini-Batch-K-Meansクラスタリングを使用して、それらを個別のメッセージに変換する。 このアプローチはコミュニケーションに優れず、無制限で継続的なコミュニケーションと有利に競い合うため、marlにおける協調的なタスク解決を強化するためのシンプルで効果的な戦略となる。

In the realm of Multi-Agent Reinforcement Learning (MARL), prevailing approaches exhibit shortcomings in aligning with human learning, robustness, and scalability. Addressing this, we introduce ClusterComm, a fully decentralized MARL framework where agents communicate discretely without a central control unit. ClusterComm utilizes Mini-Batch-K-Means clustering on the last hidden layer's activations of an agent's policy network, translating them into discrete messages. This approach outperforms no communication and competes favorably with unbounded, continuous communication and hence poses a simple yet effective strategy for enhancing collaborative task-solving in MARL.
翻訳日:2024-01-09 18:39:31 公開日:2024-01-07
# re:draw -- 芸術作品の制御可能な方法としての文脈対応翻訳

Re:Draw -- Context Aware Translation as a Controllable Method for Artistic Production ( http://arxiv.org/abs/2401.03499v1 )

ライセンス: Link先を確認
Joao Liborio Cardoso, Francesco Banterle, Paolo Cignoni, Michael Wimmer(参考訳) 既存の手法が不足している元の入力とコンテキスト関連性を同時に尊重する、インペイントとイメージ間翻訳の利点を組み合わせた新しい手法である、コンテキスト認識翻訳を導入する。 そこで本手法は,アニメーションからデジタルアートまで,芸術的創造におけるAIの制御可能な活用のための新たな道を開く。 ユースケースとして、我々は、手描きのキャラクター眼をデザイン仕様に基づいて再描画する手法を適用し、目は視聴者の注意を捉え、様々な感情を伝える焦点として機能するが、伝統的なアニメーションの労働集約性は、しばしば、目のデザインの複雑さと一貫性の妥協につながる。 さらに、訓練のための生産データの必要性を取り除き、特定の生産物に微調整を必要とせず、既存の作業を超える新しい文字認識手法を導入する。 提案されたユースケースは、プロダクション全体の一貫性を維持し、生産コストの欠点なしにより大胆で詳細な設計選択を解き放つのに役立つだろう。 ユーザ調査によれば、既存の仕事の95.16%よりも文脈認識翻訳が好まれる。

We introduce context-aware translation, a novel method that combines the benefits of inpainting and image-to-image translation, respecting simultaneously the original input and contextual relevance -- where existing methods fall short. By doing so, our method opens new avenues for the controllable use of AI within artistic creation, from animation to digital art. As an use case, we apply our method to redraw any hand-drawn animated character eyes based on any design specifications - eyes serve as a focal point that captures viewer attention and conveys a range of emotions, however, the labor-intensive nature of traditional animation often leads to compromises in the complexity and consistency of eye design. Furthermore, we remove the need for production data for training and introduce a new character recognition method that surpasses existing work by not requiring fine-tuning to specific productions. This proposed use case could help maintain consistency throughout production and unlock bolder and more detailed design choices without the production cost drawbacks. A user study shows context-aware translation is preferred over existing work 95.16% of the time.
翻訳日:2024-01-09 18:39:14 公開日:2024-01-07
# EAT: 効率的なオーディオトランスによる自己監督型事前学習

EAT: Self-Supervised Pre-Training with Efficient Audio Transformer ( http://arxiv.org/abs/2401.03497v1 )

ライセンス: Link先を確認
Wenxi Chen, Yuzhe Liang, Ziyang Ma, Zhisheng Zheng, Xie Chen(参考訳) ラベルなしオーディオから優れた表現を学習することを目的とした、音声自己教師型学習(SSL)事前学習は、目覚ましい進歩を遂げた。 しかし、事前トレーニング中の広範な計算要求は、オーディオSSLモデルの潜在的な応用と最適化に重大な障壁をもたらす。 本稿では,画像モダリティにおけるData2vec 2.0と音声モダリティにおけるAudio-MAEの成功に触発されて,音声SSLの有効性と効率を改善するために,EAT(Efficient Audio Transformer)を導入する。 提案したEATは、音声領域にブートストラップ自己教師型トレーニングパラダイムを採用する。 Utterance-Frame Objective (UFO) は音響イベントのモデリング能力を高めるために設計された。 さらに,音声SSL事前トレーニングにおいてマスキング戦略が重要であり,大きな逆ブロックマスクを用いて優れた音声表現が得られることを明らかにした。 実験結果から,AudioSet (AS-2M, AS-20K), ESC-50, SPC-2などのオーディオ関連タスクにおいて, 既存のオーディオSSLモデルに比べて最大15倍のトレーニング前速度で, 最先端のSOTA(State-of-the-art)性能を実現することが示された。

Audio self-supervised learning (SSL) pre-training, which aims to learn good representations from unlabeled audio, has made remarkable progress. However, the extensive computational demands during pre-training pose a significant barrier to the potential application and optimization of audio SSL models. In this paper, inspired by the success of data2vec 2.0 in image modality and Audio-MAE in audio modality, we introduce Efficient Audio Transformer (EAT) to further improve the effectiveness and efficiency in audio SSL. The proposed EAT adopts the bootstrap self-supervised training paradigm to the audio domain. A novel Utterance-Frame Objective (UFO) is designed to enhance the modeling capability of acoustic events. Furthermore, we reveal that the masking strategy is critical in audio SSL pre-training, and superior audio representations can be obtained with large inverse block masks. Experiment results demonstrate that EAT achieves state-of-the-art (SOTA) performance on a range of audio-related tasks, including AudioSet (AS-2M, AS-20K), ESC-50, and SPC-2, along with a significant pre-training speedup up to ~15x compared to existing audio SSL models.
翻訳日:2024-01-09 18:38:53 公開日:2024-01-07
# 医用画像分割のためのsegment anythingモデルの現状と今後の展開

Segment Anything Model for Medical Image Segmentation: Current Applications and Future Directions ( http://arxiv.org/abs/2401.03495v1 )

ライセンス: Link先を確認
Yichi Zhang, Zhenrong Shen, Rushi Jiao(参考訳) プロンプトの固有の柔軟性のために、基礎モデルが自然言語処理とコンピュータビジョンの分野において主要な力として現れてきた。 最近のSAM(Segment Anything Model)の導入は、画像セグメンテーションの領域へのプロンプト駆動パラダイムの注目すべき拡張を意味している。 しかし, 自然画像と医学画像の差が大きいため, 医用画像分割への応用の可否は不透明である。 本研究は,SAMの医療画像分割作業への有効性向上を目的とした最近の取り組みについて,実証的ベンチマークと方法論的適応の両面を包括的に概説する。 さらに,医療画像のセグメンテーションにおけるSAMの役割について,今後の研究の道筋を探る。 SAMの医用画像セグメンテーションへの直接的適用は、これまでのマルチモーダル・マルチターゲット医療データセットに満足な性能をもたらすものではないが、これらの取り組みから得られた多くの知見は、医用画像解析の領域における基礎モデルの軌道を形成するための貴重なガイダンスとなっている。 進行中の研究活動をサポートするため、私たちは、最新のペーパーリストとオープンソースプロジェクトの簡潔な要約を含むアクティブリポジトリをhttps://github.com/YichiZhang98/SAM4MISで維持しています。

Due to the inherent flexibility of prompting, foundation models have emerged as the predominant force in the fields of natural language processing and computer vision. The recent introduction of the Segment Anything Model (SAM) signifies a noteworthy expansion of the prompt-driven paradigm into the domain of image segmentation, thereby introducing a plethora of previously unexplored capabilities. However, the viability of its application to medical image segmentation remains uncertain, given the substantial distinctions between natural and medical images. In this work, we provide a comprehensive overview of recent endeavors aimed at extending the efficacy of SAM to medical image segmentation tasks, encompassing both empirical benchmarking and methodological adaptations. Additionally, we explore potential avenues for future research directions in SAM's role within medical image segmentation. While direct application of SAM to medical image segmentation does not yield satisfactory performance on multi-modal and multi-target medical datasets so far, numerous insights gleaned from these efforts serve as valuable guidance for shaping the trajectory of foundational models in the realm of medical image analysis. To support ongoing research endeavors, we maintain an active repository that contains an up-to-date paper list and a succinct summary of open-source projects at https://github.com/YichiZhang98/SAM4MIS.
翻訳日:2024-01-09 18:38:29 公開日:2024-01-07
# 改良WOA-SVRに基づくプレ挿入抵抗温度予測

Pre-insertion resistors temperature prediction based on improved WOA-SVR ( http://arxiv.org/abs/2401.03494v1 )

ライセンス: Link先を確認
Honghe Dai, Site Mo, Haoxin Wang, Nan Yin, Songhai Fan, Bixiong Li(参考訳) 高圧遮断器内のプレ絶縁抵抗(pir)は、電流が流れるとジュール熱を発生させ、臨界成分であり、ウォームアップする。 高温は一時的な閉鎖不全を引き起こし、重篤なケースではPIRが破裂する。 PIRの温度を正確に予測するために,改良された鯨最適化アルゴリズム(IWOA)により最適化された有限要素シミュレーション技術とSVR(Support Vector Regression)を組み合わせる。 IWOAには、テントマッピング、シグモイド関数に基づく収束係数、オルンシュタイン-ウレンベック変動戦略が含まれる。 IWOA-SVRモデルはSSA-SVRとWOA-SVRと比較される。 その結果、IWOA-SVRモデルの予測精度は、3$^\circ$C温度偏差範囲で90.2%、81.5%(100$^\circ$C)、および4$^\circ$C温度偏差範囲で96.3%、93.4%(100$^\circ$C)であった。 そこで本研究では,提案手法がpirの温度のオンラインモニタリングを実現し,熱的故障を効果的に防止し,短時間でサーキットブレーカの開閉の基礎となることを実証する。

The pre-insertion resistors (PIR) within high-voltage circuit breakers are critical components and warm up by generating Joule heat when an electric current flows through them. Elevated temperature can lead to temporary closure failure and, in severe cases, the rupture of PIR. To accurately predict the temperature of PIR, this study combines finite element simulation techniques with Support Vector Regression (SVR) optimized by an Improved Whale Optimization Algorithm (IWOA) approach. The IWOA includes Tent mapping, a convergence factor based on the sigmoid function, and the Ornstein-Uhlenbeck variation strategy. The IWOA-SVR model is compared with the SSA-SVR and WOA-SVR. The results reveal that the prediction accuracies of the IWOA-SVR model were 90.2% and 81.5% (above 100$^\circ$C) in the 3$^\circ$C temperature deviation range and 96.3% and 93.4% (above 100$^\circ$C) in the 4$^\circ$C temperature deviation range, surpassing the performance of the comparative models. This research demonstrates the method proposed can realize the online monitoring of the temperature of the PIR, which can effectively prevent thermal faults PIR and provide a basis for the opening and closing of the circuit breaker within a short period.
翻訳日:2024-01-09 18:38:04 公開日:2024-01-07
# 偏微分方程式解のためのカーネル重み付け補正残差付きニューラルネットワーク

Neural Networks with Kernel-Weighted Corrective Residuals for Solving Partial Differential Equations ( http://arxiv.org/abs/2401.03492v1 )

ライセンス: Link先を確認
Carlos Mora, Amin Yousefpour, Shirin Hosseinmardi, Ramin Bostanabad(参考訳) 物理インフォームド・機械学習(PIML)は、偏微分方程式(PDE)を解く従来の数値法に代わる有望な方法として登場した。 PIMLモデルは、アーキテクチャとトレーニングプロセスが設計されているディープニューラルネットワーク(NN)を介して、ネットワークがPDEシステムを満たすように、ますます構築される。 このようなPIMLモデルはここ数年で大幅に進歩してきたが、その性能はNNのアーキテクチャや損失関数に非常に敏感である。 この制限により、カーネルメソッドとディープNNの強みを統合するためにカーネル重み付き補正残差(CoRes)を導入し、非線形PDEシステムを解決する。 この統合を実現するために、我々は幅広いベンチマーク問題の解決において競合する手法を一貫して上回るモジュラーでロバストなフレームワークを設計する。 この性能改善は理論的正当性を持ち、推論コストを無視できるほど高くしながらトレーニングプロセスを単純化するので、特に魅力的です。 さらに,複数のpdesの解法について検討した結果,ランダム初期化やアーキテクチャタイプ,オプティマイザの選択といった要因に対するnnの感度が大幅に低下することが示された。 我々はPDEの解決にカーネル手法を活用することに新たな関心を喚起する可能性があると考えている。

Physics-informed machine learning (PIML) has emerged as a promising alternative to conventional numerical methods for solving partial differential equations (PDEs). PIML models are increasingly built via deep neural networks (NNs) whose architecture and training process are designed such that the network satisfies the PDE system. While such PIML models have substantially advanced over the past few years, their performance is still very sensitive to the NN's architecture and loss function. Motivated by this limitation, we introduce kernel-weighted Corrective Residuals (CoRes) to integrate the strengths of kernel methods and deep NNs for solving nonlinear PDE systems. To achieve this integration, we design a modular and robust framework which consistently outperforms competing methods in solving a broad range of benchmark problems. This performance improvement has a theoretical justification and is particularly attractive since we simplify the training process while negligibly increasing the inference costs. Additionally, our studies on solving multiple PDEs indicate that kernel-weighted CoRes considerably decrease the sensitivity of NNs to factors such as random initialization, architecture type, and choice of optimizer. We believe our findings have the potential to spark a renewed interest in leveraging kernel methods for solving PDEs.
翻訳日:2024-01-09 18:37:33 公開日:2024-01-07
# ビザンチンフォールトトレランスと高速収束を考慮した分散型フェデレーション政策

Decentralized Federated Policy Gradient with Byzantine Fault-Tolerance and Provably Fast Convergence ( http://arxiv.org/abs/2401.03489v1 )

ライセンス: Link先を確認
Philip Jordan, Florian Gr\"otschla, Flint Xiaofeng Fan, Roger Wattenhofer(参考訳) Federated Reinforcement Learning (FRL)では、エージェントは共通のタスクを協調的に学習することを目的としており、各エージェントは生の軌跡を交換することなく、そのローカル環境で行動している。 FRLの既存アプローチ (a) フォールトトレランス保証(別名悪行防止剤)を提供しない、又は (b)更新を集約するために信頼された中央エージェント(単一障害点)に依存する。 我々は、最初の分散化されたビザンチンフォールトトレラントFRL法を提供する。 そこで我々はまず,非フォールトトレラントPGの仮定標準にのみ依存することにより,既存の手法を改良する,新しい集中型ビザンチンフォールトトレラントポリシー勾配(PG)アルゴリズムを提案する。 次に,本研究の主な貢献として,強固なアグリゲーションとビザンチン・レジリエント・アグリゲーションの手法を組み合わせることで,信頼された中央エンティティの必要性をなくすことができることを示す。 この結果は,東ローマ帝国の耐故障性分散化非凸最適化のための最初のサンプル複雑性解析の結果である。 最後に、我々の理論結果を共通RL環境に対して実験的に相関させ、様々なビザンツ人攻撃に対するエージェント数とレジリエンスの分散化フェデレーションのスピードアップを実証する。

In Federated Reinforcement Learning (FRL), agents aim to collaboratively learn a common task, while each agent is acting in its local environment without exchanging raw trajectories. Existing approaches for FRL either (a) do not provide any fault-tolerance guarantees (against misbehaving agents), or (b) rely on a trusted central agent (a single point of failure) for aggregating updates. We provide the first decentralized Byzantine fault-tolerant FRL method. Towards this end, we first propose a new centralized Byzantine fault-tolerant policy gradient (PG) algorithm that improves over existing methods by relying only on assumptions standard for non-fault-tolerant PG. Then, as our main contribution, we show how a combination of robust aggregation and Byzantine-resilient agreement methods can be leveraged in order to eliminate the need for a trusted central entity. Since our results represent the first sample complexity analysis for Byzantine fault-tolerant decentralized federated non-convex optimization, our technical contributions may be of independent interest. Finally, we corroborate our theoretical results experimentally for common RL environments, demonstrating the speed-up of decentralized federations w.r.t. the number of participating agents and resilience against various Byzantine attacks.
翻訳日:2024-01-09 18:37:11 公開日:2024-01-07
# 敵対的アクターの存在下でのデータ駆動サブサンプリング

Data-Driven Subsampling in the Presence of an Adversarial Actor ( http://arxiv.org/abs/2401.03488v1 )

ライセンス: Link先を確認
Abu Shafin Mohammad Mahdee Jameel, Ahmed P. Mohamed, Jinho Yi, Aly El Gamal and Akshay Malhotra(参考訳) 深層学習に基づく自動変調分類 (amc) は, 軍用と民間用の両方に応用される可能性から, 注目を集めている。 近年,データ駆動型サブサンプリング技術を用いて計算複雑性とAMCのトレーニング時間に関する課題を克服している。 これらのデータ駆動サブサンプリングの直接的な利点の他に、これらの手法は変調分類器の対角的堅牢性を改善する性質も持つ。 本稿では,AMCとサブサンプリングの両方に深層学習モデルを用いたAMCシステムに対する敵攻撃の効果について検討する。 本分析は,サブサンプリング自体が敵攻撃に対する効果的な抑止力であることを示している。 また,分類器とサブサンプラーの両方に対する敵攻撃が予想される場合に,最も効率的なサブサンプリング戦略を明らかにする。

Deep learning based automatic modulation classification (AMC) has received significant attention owing to its potential applications in both military and civilian use cases. Recently, data-driven subsampling techniques have been utilized to overcome the challenges associated with computational complexity and training time for AMC. Beyond these direct advantages of data-driven subsampling, these methods also have regularizing properties that may improve the adversarial robustness of the modulation classifier. In this paper, we investigate the effects of an adversarial attack on an AMC system that employs deep learning models both for AMC and for subsampling. Our analysis shows that subsampling itself is an effective deterrent to adversarial attacks. We also uncover the most efficient subsampling strategy when an adversarial attack on both the classifier and the subsampler is anticipated.
翻訳日:2024-01-09 18:36:47 公開日:2024-01-07
# 臨床試験結果予測の不確実性定量化

Uncertainty Quantification on Clinical Trial Outcome Prediction ( http://arxiv.org/abs/2401.03482v1 )

ライセンス: Link先を確認
Tianyi Chen, Nan Hao, Yingzhou Lu, Capucine Van Rechem(参考訳) 不確実性定量化の重要性は、機械学習のさまざまな分野においてますます認識されている。 モデル予測の不確実性を正確に評価することは、研究者や実践者に深い理解と信頼をもたらす。 これは医療診断や薬物発見の分野で特に重要であり、信頼性の高い予測が研究の質や患者の健康に直接影響を及ぼす。 本稿では,臨床試験の結果予測に不確実性定量化を導入することを提案する。 我々の主な目標は、相違点を識別するモデルの能力を高め、それによって全体的なパフォーマンスを大幅に向上させることです。 我々は,臨床治験予測モデルの最前線にある階層的相互作用ネットワーク(HINT)とシームレスに統合し,目的を達成するための選択的分類手法を採用した。 不確実性定量化の手法のスペクトルを包含する選択的分類は、あいまいさや低い信頼度でマークされたサンプルに対して意思決定を控えるようにモデルに権限を与え、分類するインスタンスの予測の正確さを増幅する。 臨床試験の予測に選択的分類を組み込むことで、pr-auc、f1、roc-auc、および全体的な正確性といった重要な指標の大幅な上昇が証明されるように、モデルの性能が著しく向上する。 具体的には,第I相,第II相,第III相の試験結果予測において,PR-AUCに対する32.37\%,21.43\%,13.27\%の改善が得られた。 位相IIIの予測では, PR-AUCスコア0.9022に達する。 これらの結果は、臨床試験予測領域におけるこの戦略の堅牢性と将来性を示し、この分野に新たなベンチマークを設置する可能性がある。

The importance of uncertainty quantification is increasingly recognized in the diverse field of machine learning. Accurately assessing model prediction uncertainty can help provide deeper understanding and confidence for researchers and practitioners. This is especially critical in medical diagnosis and drug discovery areas, where reliable predictions directly impact research quality and patient health. In this paper, we proposed incorporating uncertainty quantification into clinical trial outcome predictions. Our main goal is to enhance the model's ability to discern nuanced differences, thereby significantly improving its overall performance. We have adopted a selective classification approach to fulfill our objective, integrating it seamlessly with the Hierarchical Interaction Network (HINT), which is at the forefront of clinical trial prediction modeling. Selective classification, encompassing a spectrum of methods for uncertainty quantification, empowers the model to withhold decision-making in the face of samples marked by ambiguity or low confidence, thereby amplifying the accuracy of predictions for the instances it chooses to classify. A series of comprehensive experiments demonstrate that incorporating selective classification into clinical trial predictions markedly enhances the model's performance, as evidenced by significant upticks in pivotal metrics such as PR-AUC, F1, ROC-AUC, and overall accuracy. Specifically, the proposed method achieved 32.37\%, 21.43\%, and 13.27\% relative improvement on PR-AUC over the base model (HINT) in phase I, II, and III trial outcome prediction, respectively. When predicting phase III, our method reaches 0.9022 PR-AUC scores. These findings illustrate the robustness and prospective utility of this strategy within the area of clinical trial predictions, potentially setting a new benchmark in the field.
翻訳日:2024-01-09 18:36:36 公開日:2024-01-07
# 現代学術統合研究動向の合成を支援する大規模言語モデル

A Large Language Model Supported Synthesis of Contemporary Academic Integrity Research Trends ( http://arxiv.org/abs/2401.03481v1 )

ライセンス: Link先を確認
Thomas Lancaster(参考訳) 本稿では,大規模言語モデル(LLM)であるChatGPTを用いた質的内容分析を行い,現在の学術的完全性研究における主要な研究テーマと,これらの領域を探索するための方法論を明らかにする。 LLMの分析では7つの研究テーマと13の重要領域が特定された。 この分析の結果は、学術的整合性分野における多くの現代研究が技術によって導かれることを示唆している。 技術は学術的不正防止の潜在的方法としてしばしば検討されるが、学術的整合性の文化を促進する上での限界要因でもある。 この結果は、LLMによる研究が学術的整合性分野の選択肢である可能性を示しているが、従来の研究の継続の必要性も指摘されている。 また、研究者と教育機関は、学術的整合性のための政策と運用の枠組みを引き続き開発すべきであることを示す。 これは、現代の教育に存在している幅広い設定で学術的基準が維持されることを保証するのに役立つ。

This paper reports on qualitative content analysis undertaken using ChatGPT, a Large Language Model (LLM), to identify primary research themes in current academic integrity research as well as the methodologies used to explore these areas. The analysis by the LLM identified 7 research themes and 13 key areas for exploration. The outcomes from the analysis suggest that much contemporary research in the academic integrity field is guided by technology. Technology is often explored as potential way of preventing academic misconduct, but this could also be a limiting factor when aiming to promote a culture of academic integrity. The findings underscore that LLM led research may be option in the academic integrity field, but that there is also a need for continued traditional research. The findings also indicate that researchers and educational providers should continue to develop policy and operational frameworks for academic integrity. This will help to ensure that academic standards are maintained across the wide range of settings that are present in modern education.
翻訳日:2024-01-09 18:36:09 公開日:2024-01-07
# Freetalker: 話者自然性向上のための拡散モデルに基づく制御可能な音声とテキスト駆動ジェスチャー生成

Freetalker: Controllable Speech and Text-Driven Gesture Generation Based on Diffusion Models for Enhanced Speaker Naturalness ( http://arxiv.org/abs/2401.03476v1 )

ライセンス: Link先を確認
Sicheng Yang, Zunnan Xu, Haiwei Xue, Yongkang Cheng, Shaoli Huang, Mingming Gong, Zhiyong Wu(参考訳) 現在の話し言葉のアバターは、話者の非言語的な動きを考慮せずに、発話の音声とテキストに基づいて共同音声のジェスチャーを生成する。 さらに、協調ジェスチャ生成に関する以前の研究では、個々のジェスチャデータセットに基づいたネットワーク構造を設計しており、データボリュームが制限され、汎用性が損なわれ、話者の動きが制限されている。 これらの問題に対処するため、我々はFreeTalkerを紹介し、これは私たちの知る限り、自然発生(例えば、共音声ジェスチャー)と非自然発生(例えば、表彰台を動き回る)の両方を生成するための最初のフレームワークである。 具体的には,様々な動作データセットから抽出した異種データを用いて,音声駆動ジェスチャーとテキスト駆動動作の両方の統一表現を用いた拡散型話者運動生成モデルを訓練する。 推論中,クリップ内のスタイルを高度に制御するために,分類子なし指導を用いる。 さらに,クリップ間のスムーズな遷移を実現するために,生成前処理を活用し,シームレスなモーションブレンドを保証する方法であるdoubletakeを利用する。 実験の結果,本手法は自然かつ制御可能な話者の動きを生成することがわかった。 私たちのコード、モデル、デモは、 \url{https://youngseng.github.io/freetalker/}で利用可能です。

Current talking avatars mostly generate co-speech gestures based on audio and text of the utterance, without considering the non-speaking motion of the speaker. Furthermore, previous works on co-speech gesture generation have designed network structures based on individual gesture datasets, which results in limited data volume, compromised generalizability, and restricted speaker movements. To tackle these issues, we introduce FreeTalker, which, to the best of our knowledge, is the first framework for the generation of both spontaneous (e.g., co-speech gesture) and non-spontaneous (e.g., moving around the podium) speaker motions. Specifically, we train a diffusion-based model for speaker motion generation that employs unified representations of both speech-driven gestures and text-driven motions, utilizing heterogeneous data sourced from various motion datasets. During inference, we utilize classifier-free guidance to highly control the style in the clips. Additionally, to create smooth transitions between clips, we utilize DoubleTake, a method that leverages a generative prior and ensures seamless motion blending. Extensive experiments show that our method generates natural and controllable speaker movements. Our code, model, and demo are are available at \url{https://youngseng.github.io/FreeTalker/}.
翻訳日:2024-01-09 18:35:51 公開日:2024-01-07
# novelgym: オープンワールドのためのハイブリッド計画と学習エージェントのための柔軟なエコシステム

NovelGym: A Flexible Ecosystem for Hybrid Planning and Learning Agents Designed for Open Worlds ( http://arxiv.org/abs/2401.03546v1 )

ライセンス: Link先を確認
Shivam Goel, Yichen Wei, Panagiotis Lymperopoulos, Matthias Scheutz, Jivko Sinapov(参考訳) aiエージェントが研究室を出て、自動運転車、配達ロボット、調理ロボットとして現実世界に参入するにつれ、'オープンワールド'に取り組むアルゴリズムをデザインし、総合的に評価する必要がある。 この目的のために,グリッドワールド環境をシミュレートするフレキシブルで適応可能なエコシステムであるnovellgymを導入し,オープンワールドコンテキストにおける強化学習(rl)とハイブリッド計画および学習エージェントのベンチマークのための強固なプラットフォームとして機能する。 novelgymのモジュラーアーキテクチャは、複数の環境変換を伴うマルチエージェントシナリオを含むタスク環境の迅速な作成と修正を促進し、研究者がオープンワールドaiエージェントを開発するための動的テストベッドを提供する。

As AI agents leave the lab and venture into the real world as autonomous vehicles, delivery robots, and cooking robots, it is increasingly necessary to design and comprehensively evaluate algorithms that tackle the ``open-world''. To this end, we introduce NovelGym, a flexible and adaptable ecosystem designed to simulate gridworld environments, serving as a robust platform for benchmarking reinforcement learning (RL) and hybrid planning and learning agents in open-world contexts. The modular architecture of NovelGym facilitates rapid creation and modification of task environments, including multi-agent scenarios, with multiple environment transformations, thus providing a dynamic testbed for researchers to develop open-world AI agents.
翻訳日:2024-01-09 18:30:38 公開日:2024-01-07
# NLPには本当にCitation Age Biasがありますか?

Is there really a Citation Age Bias in NLP? ( http://arxiv.org/abs/2401.03545v1 )

ライセンス: Link先を確認
Hoa Nguyen and Steffen Eger(参考訳) 引用は科学研究の重要な要素であり、コミュニティで出版された論文と関連づけられている。 近年,現在急速に成長しているAIサブフィールドの1つである自然言語処理(NLP)コミュニティでは,近年,NLP論文の書誌学の平均年齢がますます若くなり,古い知識が忘れられつつある「引用記憶症」につながることが指摘されている。 そこで本研究では,2013年から2022年までの期間に,人気のあるプレプリントサーバarxivに提出された15の学術分野を対象に,$3kの論文の書誌解析を行った。 すべてのAIサブフィールド(特にcs.AI、cs.CL、cs.CV、cs.LG)は、平均して引用記憶の傾向があり、文献学の年齢は過去10年間でほぼ半減した(2013年の12歳以上から2022年の7歳未満まで)。 これをNLPコミュニティの引用年齢バイアスとして診断するのではなく、このパターンはこれらの研究分野のダイナミクスの成果であり、より短い時間間隔で新たな知識が生み出されると考えている。

Citations are a key ingredient of scientific research to relate a paper to others published in the community. Recently, it has been noted that there is a citation age bias in the Natural Language Processing (NLP) community, one of the currently fastest growing AI subfields, in that the mean age of the bibliography of NLP papers has become ever younger in the last few years, leading to `citation amnesia' in which older knowledge is increasingly forgotten. In this work, we put such claims into perspective by analyzing the bibliography of $\sim$300k papers across 15 different scientific fields submitted to the popular preprint server Arxiv in the time period from 2013 to 2022. We find that all AI subfields (in particular: cs.AI, cs.CL, cs.CV, cs.LG) have similar trends of citation amnesia, in which the age of the bibliography has roughly halved in the last 10 years (from above 12 in 2013 to below 7 in 2022), on average. Rather than diagnosing this as a citation age bias in the NLP community, we believe this pattern is an artefact of the dynamics of these research fields, in which new knowledge is produced in ever shorter time intervals.
翻訳日:2024-01-09 18:30:25 公開日:2024-01-07
# SeTformerはビジョンと言語に必要なもの

SeTformer is What You Need for Vision and Language ( http://arxiv.org/abs/2401.03540v1 )

ライセンス: Link先を確認
Pourya Shamsolmoali, Masoumeh Zareapoor, Eric Granger, Michael Felsberg(参考訳) ドット積自己注意(DPSA)は変圧器の基本成分である。 しかし、文書や高解像度画像のような長いシーケンスにスケールすることは、ソフトマックス操作から生じる二次時間とメモリの複雑さのために、非常に高価になる。 カーネル法はソフトマックスを近似することで計算を単純化するために用いられるが、ソフトマックスの注意よりも性能低下につながることが多い。 そこで本研究では,dpsaを純粋に自己最適化トランスポート(set)に置き換え,性能と計算効率を向上させる新しいトランスフォーマーであるsetformerを提案する。 SeTは、非負の注意行列を維持し、非線形再重み付け機構を用いて入力シーケンスにおける重要なトークンを強調する。 最適な転送のためにカーネルコスト関数を導入することで、setformerはこれらの特性を効果的に満たす。 特に、小型でベースサイズのモデルでは、SeTformerはImageNet-1Kで84.7%、86.2%という印象的なトップ1アキュラシーを達成した。 オブジェクト検出では、SeTformer-baseはFocalNetよりも+2.2 mAPで、38%のパラメータと29%のFLOPを使用する。 セマンティックセグメンテーションでは, NAT を +3.5 mIoU で上回り, パラメータは 33% 少ない。 SeTformerはGLUEベンチマークで言語モデリングの最先端の結果も達成している。 これらの知見は、SeTformerの視覚および言語タスクへの適用性を強調している。

The dot product self-attention (DPSA) is a fundamental component of transformers. However, scaling them to long sequences, like documents or high-resolution images, becomes prohibitively expensive due to quadratic time and memory complexities arising from the softmax operation. Kernel methods are employed to simplify computations by approximating softmax but often lead to performance drops compared to softmax attention. We propose SeTformer, a novel transformer, where DPSA is purely replaced by Self-optimal Transport (SeT) for achieving better performance and computational efficiency. SeT is based on two essential softmax properties: maintaining a non-negative attention matrix and using a nonlinear reweighting mechanism to emphasize important tokens in input sequences. By introducing a kernel cost function for optimal transport, SeTformer effectively satisfies these properties. In particular, with small and basesized models, SeTformer achieves impressive top-1 accuracies of 84.7% and 86.2% on ImageNet-1K. In object detection, SeTformer-base outperforms the FocalNet counterpart by +2.2 mAP, using 38% fewer parameters and 29% fewer FLOPs. In semantic segmentation, our base-size model surpasses NAT by +3.5 mIoU with 33% fewer parameters. SeTformer also achieves state-of-the-art results in language modeling on the GLUE benchmark. These findings highlight SeTformer's applicability in vision and language tasks.
翻訳日:2024-01-09 18:29:59 公開日:2024-01-07
# 非並列データを用いたTSからアクセント変換への言語表現の転送

Transfer the linguistic representations from TTS to accent conversion with non-parallel data ( http://arxiv.org/abs/2401.03538v1 )

ライセンス: Link先を確認
Xi Chen, Jiakun Pei, Liumeng Xue, Mingyang Zhang(参考訳) アクセント変換は、話者のアイデンティティを保ちながら、ソース音声のアクセントをターゲットアクセントに変換することを目的としている。 本稿では,アクセント非依存の言語表現を学習し,そのアクセントを母語音声のアクセントに変換する新しい非自己回帰的アクセント変換フレームワークを提案する。 具体的には、音声表現をテキスト音声変換(TTS)システムから得られる言語表現と整合させ、非並列データ上でアクセント音声変換モデルの訓練を可能にする。 さらに,本提案手法におけるネイティブデータと異なる音響特徴に対する事前学習戦略の有効性について検討した。 主観的指標と客観的指標の両方を用いて包括的評価を行い、アプローチの性能を評価する。 評価結果は、事前学習戦略の利点とよりリッチな意味的特徴の取り入れを強調し、音質と知性を大幅に向上させる。

Accent conversion aims to convert the accent of a source speech to a target accent, meanwhile preserving the speaker's identity. This paper introduces a novel non-autoregressive framework for accent conversion that learns accent-agnostic linguistic representations and employs them to convert the accent in the source speech. Specifically, the proposed system aligns speech representations with linguistic representations obtained from Text-to-Speech (TTS) systems, enabling training of the accent voice conversion model on non-parallel data. Furthermore, we investigate the effectiveness of a pretraining strategy on native data and different acoustic features within our proposed framework. We conduct a comprehensive evaluation using both subjective and objective metrics to assess the performance of our approach. The evaluation results highlight the benefits of the pretraining strategy and the incorporation of richer semantic features, resulting in significantly enhanced audio quality and intelligibility.
翻訳日:2024-01-09 18:29:39 公開日:2024-01-07
# スケーラブル超伝導量子プロセッサ用タンタルエアブリッジ

Tantalum airbridges for scalable superconducting quantum processors ( http://arxiv.org/abs/2401.03537v1 )

ライセンス: Link先を確認
Kunliang Bu, Sainan Huai, Zhenxing Zhang, Dengfeng Li, Yuan Li, Jingjing Hu, Xiaopei Yang, Maochun Dai, Tianqi Cai, Yi-Cong Zheng, Shengyu Zhang(参考訳) タンタル(ta)の特異な性質、特に超伝導量子ビットにおける長いコヒーレント寿命と、酸とアルカリの両方に対する耐性は超伝導量子プロセッサに有望である。 タンタルフィルムベースのプラットフォーム上で、コプラナー導波路(CPW)、キュービット、エアブリッジを含む全ての回路要素をきれいかつ統一した構成で高性能な量子プロセッサを実現することは、注目すべき利点である。 本稿では,アルミニウム (Al) フィルムを用いたバリア層を2層分離し, タンタルフィルムの堆積前にエッチングした後, ピラニア溶液を洗浄してチップ上に残留したフォトレジストを除去する, 新規なリフトオフ法により作製した, 分離または全カプセル構造を有する信頼性タンタルエアブリッジを提案する。 このようなタンタルエアブリッジを制御ラインジャンパー、地上平面クロスオーバー、さらには結合要素として特徴付ける。 接続性に優れ、容量損失を最小限に抑え、マイクロ波とフラックスクロストークを効果的に抑制し、結合の自由度が高い。 さらに,100ドル以上の中央値T_1$を持つ表面構造可変結合超伝導量子プロセッサを提示することにより,タンタルエアブリッジの全体的な適応性を検証する。 中央の単一量子ゲートの忠実度は、孤立ランダム化ベンチマークの99.95%から同時ベンチマークの99.94%までわずかに低下している。 この製法は、既知のすべての超伝導材料と互換性があり、一般的に用いられるエッチングやグレースケールリソグラフィと比較すると、軽度の成膜条件を必要とする。 一方、制御Z(CZ)ゲートの忠実度99.2%を超える非局所結合の実験的な成果は、qLDPC符号をさらに促進し、スケーラブルな量子計算と完全なタンタル要素による量子エラー補正の基礎を築いた。

The unique property of tantalum (Ta), particularly its long coherent lifetime in superconducting qubits and its exceptional resistance to both acid and alkali, makes it promising for superconducting quantum processors. It is a notable advantage to achieve high-performance quantum processors with neat and unified fabrication of all circuit elements, including coplanar waveguides (CPW), qubits, and airbridges, on the tantalum film-based platform. Here, we propose a reliable tantalum airbridges with separate or fully-capped structure fabricated via a novel lift-off method, where a barrier layer with aluminium (Al) film is first introduced to separate two layers of photoresist and then etched away before the deposition of tantalum film, followed by cleaning with piranha solution to remove the residual photoresist on the chip. We characterize such tantalum airbridges as the control line jumpers, the ground plane crossovers and even coupling elements. They exhibit excellent connectivity, minimal capacitive loss, effectively suppress microwave and flux crosstalk and offer high freedom of coupling. Besides, by presenting a surface-13 tunable coupling superconducting quantum processor with median $T_1$ reaching above 100 $\mu$s, the overall adaptability of tantalum airbridges is verified. The median single-qubit gate fidelity shows a tiny decrease from about 99.95% for the isolated Randomized Benchmarking to 99.94% for the simultaneous one. This fabrication method, compatible with all known superconducting materials, requires mild conditions of film deposition compared with the commonly used etching and grayscale lithography. Meanwhile, the experimental achievement of non-local coupling with controlled-Z (CZ) gate fidelity exceeding 99.2% may further facilitate qLDPC codes, laying a foundation for scalable quantum computation and quantum error correction with entirely tantalum elements.
翻訳日:2024-01-09 18:29:24 公開日:2024-01-07
# 物理インフォームドニューラルネットワークによる実システムにおけるダイナミクスの符号化

Physics-informed Neural Networks for Encoding Dynamics in Real Physical Systems ( http://arxiv.org/abs/2401.03534v1 )

ライセンス: Link先を確認
Hamza Alsharif(参考訳) この論文は、制御方程式を符号化する候補モデルとして物理情報ニューラルネットワーク(PINN)を調査し、その性能を2つの異なるシステムからの実験データで評価する。 第1のシステムは単純な非線形振り子であり、第2のシステムは金属ブロックの表面を横切る2次元熱拡散である。 振り子システムにおいて,pinnsは,線形空間10点と均一分布ランダムトレーニング点10点に対して,それぞれ18倍,6倍の精度で等価な非奇形ニューラルネットワーク(nns)を上回っていた。 実験から収集した実データを持つ同様のテストケースでは、pinnsは、それぞれ67の線形空間と一様分布のランダム点に対する9.3倍と9.1倍の精度向上率でnnsを上回った。 2次元熱拡散では,ネットワークパラメータの最適化が時間と空間の両方において困難であるため,pinnとnnはいずれも加熱機構の再構築にあまり適さないことを示した。 我々は、最適化問題のサイズを減らし、LBFGSを最適化器として用いることは、PINNとNNの両方で予測された解の精度を改善する方法である、と強調する。 さらに,物理系に物理インフォームドモデルを配置する可能性についても検討し,FPGAを計算基板として選択する。 これを踏まえ、PYNQ-Z1 FPGAを用いて実験を行い、時間コヒーレントなセンシングと空間データアライメントに関する問題を特定する。 本研究から得られた知見を議論し,本手法が開発するシステムのアーキテクチャに基づく今後の作業項目を列挙する。

This dissertation investigates physics-informed neural networks (PINNs) as candidate models for encoding governing equations, and assesses their performance on experimental data from two different systems. The first system is a simple nonlinear pendulum, and the second is 2D heat diffusion across the surface of a metal block. We show that for the pendulum system the PINNs outperformed equivalent uninformed neural networks (NNs) in the ideal data case, with accuracy improvements of 18x and 6x for 10 linearly-spaced and 10 uniformly-distributed random training points respectively. In similar test cases with real data collected from an experiment, PINNs outperformed NNs with 9.3x and 9.1x accuracy improvements for 67 linearly-spaced and uniformly-distributed random points respectively. For the 2D heat diffusion, we show that both PINNs and NNs do not fare very well in reconstructing the heating regime due to difficulties in optimizing the network parameters over a large domain in both time and space. We highlight that data denoising and smoothing, reducing the size of the optimization problem, and using LBFGS as the optimizer are all ways to improve the accuracy of the predicted solution for both PINNs and NNs. Additionally, we address the viability of deploying physics-informed models within physical systems, and we choose FPGAs as the compute substrate for deployment. In light of this, we perform our experiments using a PYNQ-Z1 FPGA and identify issues related to time-coherent sensing and spatial data alignment. We discuss the insights gained from this work and list future work items based on the proposed architecture for the system that our methods work to develop.
翻訳日:2024-01-09 18:28:50 公開日:2024-01-07
# キャビティボルン・オッペンハイマー近似の理解

Understanding the Cavity Born-Oppenheimer Approximation ( http://arxiv.org/abs/2401.03532v1 )

ライセンス: Link先を確認
Marit R. Fiechter and Jeremy O. Richardson(参考訳) 実験により、分子振動と光モードの振動強い結合は、基底状態の反応性などの分子特性を著しく変化させることができることが示されている。 このエキサイティングな観測の起源に関する理論的研究は、分子を基底状態の双極子モーメントを介してキャビティモードに単に結合するハミルトニアンの研究と、キャビティボルン・オッペンハイマー(cbo)近似内の電子基底状態に対するキャビティモードの影響を自己整合的に含むab initio計算の2つのカテゴリに分けられる。 CBOのアプローチは厳密だが、残念ながら電子構造コードの書き直しが必要であり、物理的な洞察はほとんど得られない。 本研究では, この2つのアプローチの関係を生かして, 現実的な結合強度を得るために, 標準電子構造計算からキャビティ外量のみを用いてcboエネルギーとスペクトルを高精度に回収できる実分子(フッ化水素)を実証する。 これにより、CBOの結果の基盤となる物理的効果がどのようなものかが分かる。 我々の手法は、モデルにもっと重要な特徴を取り入れ、CBO結果のデミスティフィケーションにおいて重要な役割を担い、完全なCBO計算に代わる実用的で効率的な代替手段を提供する。

Experiments have demonstrated that vibrational strong coupling between molecular vibrations and light modes can significantly change molecular properties, such as ground-state reactivity. Theoretical studies towards the origin of this exciting observation can roughly be divided in two categories, with studies based on Hamiltonians that simply couple a molecule to a cavity mode via its ground-state dipole moment on the one hand, and on the other hand ab initio calculations that self-consistently include the effect of the cavity mode on the electronic ground state within the cavity Born-Oppenheimer (CBO) approximation; these approaches are not equivalent. The CBO approach is more rigorous, but unfortunately it requires the rewriting of electronic-structure code, and gives little physical insight. In this work, we exploit the relation between the two approaches and demonstrate on a real molecule (hydrogen fluoride) that for realistic coupling strengths, we can recover CBO energies and spectra to high accuracy using only out-of-cavity quantities from standard electronic-structure calculations. In doing so, we discover what the physical effects underlying the CBO results are. Our methodology can aid in incorporating more, possibly important features in models, play a pivotal role in demystifying CBO results and provide a practical and efficient alternative to full CBO calculations.
翻訳日:2024-01-09 18:28:18 公開日:2024-01-07
# 安全ナノUAVナビゲーションのための異種RISC-VベースのSoC

A Heterogeneous RISC-V based SoC for Secure Nano-UAV Navigation ( http://arxiv.org/abs/2401.03531v1 )

ライセンス: Link先を確認
Luca Valente, Alessandro Nadalini, Asif Veeran, Mattia Sinigaglia, Bruno Sa, Nils Wistoff, Yvan Tortorella, Simone Benatti, Rafail Psiakis, Ari Kulmala, Baker Mohammad, Sandro Pinto, Daniele Palossi, Luca Benini, Davide Rossi(参考訳) エネルギー効率のよい並列超低出力(ULP)制御ユニット(MCU)の急速な進歩は、自律型ナノサイズの無人航空機(ナノUAV)の開発を可能にしている。 これらの10cm以下のドローンは、次世代のロボットヘルパーとユビキタススマートセンサーを表している。 しかし、ナノUAVは、リアルタイム機械学習(ML)パフォーマンスや汎用OSとリアルタイムOSの安全な共存など、標準的なドローンに似た高度なコンピューティング機能を必要とする一方で、大きな電力とペイロードの制約に直面している。 一部の高度な並列ULP MCUは、所定の電力制限内で必要なMLコンピューティング機能を提供するが、仮想化やセキュリティ機能を持たない小さなメインメモリ(1MB)とユコントローラクラスのCPUに依存しているため、単純なベアメタルランタイムしかサポートしていない。 本研究では,22nmFDXで実装した9mm2 200mW SoCのShaheenを紹介する。 最先端のMCUと異なり、ShaheenはLinux対応のRV64コアを統合し、v1.0の承認されたハイパーバイザ拡張に準拠し、CPUに直接512MBのオフチップ低消費電力のHyperRAMを出力する低コストで低消費電力のメモリコントローラを備えた。 同時に、汎用DSP向けに最適化されたRV32コアの完全プログラム可能なエネルギー効率と面積効率のマルチコアクラスタと、縮小および混合精度MLを統合している。 著者の知る限り、RISC-V ISAをベースとしたヘテロジニアスホスト+アクセラレータアーキテクチャにおいて、RV64とRV32コアを結合するULP SoCの最初のシリコンプロトタイプである。 提案するSoCのナノUAV応用に関する幅広いベンチマークにおける性能を実証する。 クラスタは最大90GOp/s、2ビット整数カーネルで最大1.8TOp/s/W、最大7.9GFLOp/s、16ビットFPカーネルで最大150GFLOp/s/Wを提供する。

The rapid advancement of energy-efficient parallel ultra-low-power (ULP) ucontrollers units (MCUs) is enabling the development of autonomous nano-sized unmanned aerial vehicles (nano-UAVs). These sub-10cm drones represent the next generation of unobtrusive robotic helpers and ubiquitous smart sensors. However, nano-UAVs face significant power and payload constraints while requiring advanced computing capabilities akin to standard drones, including real-time Machine Learning (ML) performance and the safe co-existence of general-purpose and real-time OSs. Although some advanced parallel ULP MCUs offer the necessary ML computing capabilities within the prescribed power limits, they rely on small main memories (<1MB) and ucontroller-class CPUs with no virtualization or security features, and hence only support simple bare-metal runtimes. In this work, we present Shaheen, a 9mm2 200mW SoC implemented in 22nm FDX technology. Differently from state-of-the-art MCUs, Shaheen integrates a Linux-capable RV64 core, compliant with the v1.0 ratified Hypervisor extension and equipped with timing channel protection, along with a low-cost and low-power memory controller exposing up to 512MB of off-chip low-cost low-power HyperRAM directly to the CPU. At the same time, it integrates a fully programmable energy- and area-efficient multi-core cluster of RV32 cores optimized for general-purpose DSP as well as reduced- and mixed-precision ML. To the best of the authors' knowledge, it is the first silicon prototype of a ULP SoC coupling the RV64 and RV32 cores in a heterogeneous host+accelerator architecture fully based on the RISC-V ISA. We demonstrate the capabilities of the proposed SoC on a wide range of benchmarks relevant to nano-UAV applications. The cluster can deliver up to 90GOp/s and up to 1.8TOp/s/W on 2-bit integer kernels and up to 7.9GFLOp/s and up to 150GFLOp/s/W on 16-bit FP kernels.
翻訳日:2024-01-09 18:27:51 公開日:2024-01-07
# 機械学習分類器と説明可能性解析を用いたブロックチェーントランザクションの異常検出

Detecting Anomalies in Blockchain Transactions using Machine Learning Classifiers and Explainability Analysis ( http://arxiv.org/abs/2401.03530v1 )

ライセンス: Link先を確認
Mohammad Hasan, Mohammad Shahriar Rahman, Helge Janicke, Iqbal H. Sarker(参考訳) デジタル決済におけるブロックチェーンの利用が普及を続ける中、さまざまな悪意ある攻撃の影響を受けやすくなっている。 Blockchainトランザクション内の異常を正常に検出することは、デジタル支払いの信頼性を高める上で不可欠である。 しかし、不正なトランザクションが発生しやすいため、ブロックチェーントランザクションデータにおける異常検出のタスクは困難である。 この分野ではいくつかの研究が行われてきたが、モデルの予測に対する説明の欠如という制限が続いている。 本研究は,eXplainable Artificial Intelligence(XAI)技術と異常ルールを木ベースのアンサンブル分類器に統合し,異常なBitcoin取引を検出することにより,この制限を克服することを目的とする。 Shapley Additive exPlanation (SHAP) 法は各特徴の寄与を測定するために用いられ、アンサンブルモデルと互換性がある。 さらに、ビットコイン取引が異常であるか否かを解釈するルールも提示する。 さらに,異常および非異常なトランザクションデータのバランスをとるように設計されたxgbclusというアンダーサンプリングアルゴリズムも導入した。 このアルゴリズムは他のアンダーサンプリング法やオーバーサンプリング法と比較される。 最後に、様々な木ベース単一分類器の結果をスタック化および投票アンサンブル分類器と比較する。 実験結果はこう示しています i)XGBCLUSは最先端アンダーサンプリングおよびオーバーサンプリング技術と比較してTPRおよびROC-AUCスコアを増強し、 提案するアンサンブル分類器は,従来の単木型機械学習分類器よりも精度,TPR,FPRの点で優れていた。

As the use of Blockchain for digital payments continues to rise in popularity, it also becomes susceptible to various malicious attacks. Successfully detecting anomalies within Blockchain transactions is essential for bolstering trust in digital payments. However, the task of anomaly detection in Blockchain transaction data is challenging due to the infrequent occurrence of illicit transactions. Although several studies have been conducted in the field, a limitation persists: the lack of explanations for the model's predictions. This study seeks to overcome this limitation by integrating eXplainable Artificial Intelligence (XAI) techniques and anomaly rules into tree-based ensemble classifiers for detecting anomalous Bitcoin transactions. The Shapley Additive exPlanation (SHAP) method is employed to measure the contribution of each feature, and it is compatible with ensemble models. Moreover, we present rules for interpreting whether a Bitcoin transaction is anomalous or not. Additionally, we have introduced an under-sampling algorithm named XGBCLUS, designed to balance anomalous and non-anomalous transaction data. This algorithm is compared against other commonly used under-sampling and over-sampling techniques. Finally, the outcomes of various tree-based single classifiers are compared with those of stacking and voting ensemble classifiers. Our experimental results demonstrate that: (i) XGBCLUS enhances TPR and ROC-AUC scores compared to state-of-the-art under-sampling and over-sampling techniques, and (ii) our proposed ensemble classifiers outperform traditional single tree-based machine learning classifiers in terms of accuracy, TPR, and FPR scores.
翻訳日:2024-01-09 18:27:16 公開日:2024-01-07
# 人工エージェントにおける非パワーサーキングの定量安定性

Quantifying stability of non-power-seeking in artificial agents ( http://arxiv.org/abs/2401.03529v1 )

ライセンス: Link先を確認
Evan Ryan Gunter (1), Yevgeny Liokumovich (2), Victoria Krakovna (3) ((1) ML Alignment & Theory Scholars (MATS), (2) University of Toronto, (3) Google DeepMind)(参考訳) AIエージェントが1つの設定で安全であることが分かっている場合、最初の設定と同じような新しい設定でも安全かどうか、という疑問を調査する。 これはAIアライメントの中核的な問題である – 特定の環境でモデルをトレーニングし、テストするが、それを別の環境にデプロイする。 我々の安全の概念は、電力を求めるエージェントが安全ではないことに基づいている。 特に私たちは、シャットダウンに抵抗する、重要なタイプの電力探索に焦点を当てています。 私たちはエージェントをマルコフ決定プロセスのポリシーとしてモデル化し、シャットダウンに抵抗しない(関心のある2つのケースにおいて)ことは「安定」であることを示している。 また、安全が_not_stable-orbitrallyly small perturbationsは、決して停止しないポリシーをもたらす可能性があるという自然の事例も示しています。最初のケースでは、MDPのバイシミュレーション基準を用いて、小さな摂動がエージェントを閉鎖するのに時間がかからないことを示す。 第2のケースは、様々なモデル(言語モデルを含む)に対する一定の制約を満たすMDPのためのポリシーです。 ここでは, MDP 上の計量を定義することにより, MDP 上の関数としてシャットダウンしない確率が半連続であることを示すとともに, シャットダウンしない確率がどれだけ早く増加するかを示す。

We investigate the question: if an AI agent is known to be safe in one setting, is it also safe in a new setting similar to the first? This is a core question of AI alignment--we train and test models in a certain environment, but deploy them in another, and we need to guarantee that models that seem safe in testing remain so in deployment. Our notion of safety is based on power-seeking--an agent which seeks power is not safe. In particular, we focus on a crucial type of power-seeking: resisting shutdown. We model agents as policies for Markov decision processes, and show (in two cases of interest) that not resisting shutdown is "stable": if an MDP has certain policies which don't avoid shutdown, the corresponding policies for a similar MDP also don't avoid shutdown. We also show that there are natural cases where safety is _not_ stable--arbitrarily small perturbations may result in policies which never shut down. In our first case of interest--near-optimal policies--we use a bisimulation metric on MDPs to prove that small perturbations won't make the agent take longer to shut down. Our second case of interest is policies for MDPs satisfying certain constraints which hold for various models (including language models). Here, we demonstrate a quantitative bound on how fast the probability of not shutting down can increase: by defining a metric on MDPs; proving that the probability of not shutting down, as a function on MDPs, is lower semicontinuous; and bounding how quickly this function decreases.
翻訳日:2024-01-09 18:26:56 公開日:2024-01-07
# 運転映像の時間周波数モデリングによるテキスト駆動交通異常検出

Text-Driven Traffic Anomaly Detection with Temporal High-Frequency Modeling in Driving Videos ( http://arxiv.org/abs/2401.03522v1 )

ライセンス: Link先を確認
Rongqin Liang, Yuanman Li, Jiantao Zhou, Xia Li(参考訳) 運転ビデオにおける交通異常検出(TAD)は、自動運転と高度な運転支援システムの安全性を確保するために重要である。 従来の単一ステージTAD手法は主にフレーム予測に依存しており、ダッシュボードカメラの高速移動によって引き起こされる動的背景からの干渉に弱い。 2段階のTAD法は、背景非依存の特徴(バウンディングボックスや光フローなど)を知覚アルゴリズムで事前に抽出することで、そのような干渉を軽減する自然な解であるように見えるが、第一段階の知覚アルゴリズムの性能に敏感であり、エラーの伝播をもたらす可能性がある。 本稿では,ビデオクリップをテキストプロンプトと整合させる新しい単一ステージ手法であるTTHFを紹介し,交通異常検出の新しい視点を提供する。 従来の手法とは異なり、我々の手法の教師付き信号は直交する1ホットベクトルではなく言語から派生しており、より包括的な表現を提供する。 さらに,映像表現に関して,時間領域における映像の高頻度をモデル化することを提案する。 このモデリングは、運転シーンの動的変化を捉え、運転行動の知覚を高め、交通異常の検出を大幅に改善する。 さらに,様々な交通異常をよりよく知覚するために,視覚的かつ言語的に関心の視覚的文脈に適応的に焦点を合わせ,交通異常の検出を容易にするような注意深い異常集中機構を慎重に設計する。 提案したTTHFは,DoTAデータセット上では+5.4%,DADデータセットでは高い一般化を達成し,最先端の競合よりも高い性能を実現している。

Traffic anomaly detection (TAD) in driving videos is critical for ensuring the safety of autonomous driving and advanced driver assistance systems. Previous single-stage TAD methods primarily rely on frame prediction, making them vulnerable to interference from dynamic backgrounds induced by the rapid movement of the dashboard camera. While two-stage TAD methods appear to be a natural solution to mitigate such interference by pre-extracting background-independent features (such as bounding boxes and optical flow) using perceptual algorithms, they are susceptible to the performance of first-stage perceptual algorithms and may result in error propagation. In this paper, we introduce TTHF, a novel single-stage method aligning video clips with text prompts, offering a new perspective on traffic anomaly detection. Unlike previous approaches, the supervised signal of our method is derived from languages rather than orthogonal one-hot vectors, providing a more comprehensive representation. Further, concerning visual representation, we propose to model the high frequency of driving videos in the temporal domain. This modeling captures the dynamic changes of driving scenes, enhances the perception of driving behavior, and significantly improves the detection of traffic anomalies. In addition, to better perceive various types of traffic anomalies, we carefully design an attentive anomaly focusing mechanism that visually and linguistically guides the model to adaptively focus on the visual context of interest, thereby facilitating the detection of traffic anomalies. It is shown that our proposed TTHF achieves promising performance, outperforming state-of-the-art competitors by +5.4% AUC on the DoTA dataset and achieving high generalization on the DADA dataset.
翻訳日:2024-01-09 18:26:28 公開日:2024-01-07
# ラゲール・ガウシアンモードを持つ可逆三元論理

Reversible ternary logic with Laguerre-Gaussian modes ( http://arxiv.org/abs/2401.03521v1 )

ライセンス: Link先を確認
Przemyslaw Litwin, Jakub Wronski, Konrad Markowski, Dorilian Lopez-Mago, Jan Masajada, Mateusz Szatkowski(参考訳) 計算産業による処理能力の向上の必要性と、データセンターのエネルギー消費の削減は、現代の計算システムにとって課題となった。 本研究では,その汎用性から,将来のコンピューティングシステムのためのビルディングブロックとして機能する光通信ソリューションを提案する。 この解はランダウアーの原理から生まれ、構造的な光を持つ光学論理ゲートとして表される可逆論理を利用する。 情報キャリアとして位相シフトを利用する情報符号化手法を導入し,3次システムという形で多値論理を組み込んだ。 実験検証では,2つの画像間の類似性を決定するために,自由空間通信プロトコルを実装した。 得られた結果は、より密度の高い情報容量と強化された情報セキュリティを示し、量子情報と古典情報の両方を送信および処理する能力を示している。

The need set by a computational industry to increase processing power, while simultaneously reducing the energy consumption of data centers became a challenge for modern computational systems. In this work, we propose an optical communication solution, that could serve as a building block for future computing systems, due to its versatility. The solution arises from Landauer principle and utilizes reversible logic, manifested as an optical logical gate with structured light, here represented as Laguerre-Gaussian modes. We introduced an information encoding technique that employs phase shift as an information carrier and incorporates multi-valued logic in the form of a ternary system. In the experimental validation, the free space communication protocol is implemented to determine the similarity between two images. Obtained results are compared with their binary counterparts, illustrating denser information capacity and enhanced information security, which underscores its capability to transmit and process both quantum and classical information.
翻訳日:2024-01-09 18:25:35 公開日:2024-01-07
# RoBERTurk:トルコでRoBERTaを調整

RoBERTurk: Adjusting RoBERTa for Turkish ( http://arxiv.org/abs/2401.03515v1 )

ライセンス: Link先を確認
Nuri Tas(参考訳) BPEトークンを用いたトルコのコーパス上でRoBERTaをプリトレーニングする。 我々のモデルは、POSタスクのBOUNデータセット上のBERTurkファミリーモデルよりも優れており、同じタスクのIMSTデータセットではパフォーマンスが劣り、NERタスクのトルコ分割によるXTREMEデータセットの競合スコアが得られます。 トレーニング済みのモデルとトークンをリリースします。

We pretrain RoBERTa on a Turkish corpora using BPE tokenizer. Our model outperforms BERTurk family models on the BOUN dataset for the POS task while resulting in underperformance on the IMST dataset for the same task and achieving competitive scores on the Turkish split of the XTREME dataset for the NER task - all while being pretrained on smaller data than its competitors. We release our pretrained model and tokenizer.
翻訳日:2024-01-09 18:25:06 公開日:2024-01-07
# ROIC-DM:拡散モデルによるロバストテキスト推論と分類

ROIC-DM: Robust Text Inference and Classification via Diffusion Model ( http://arxiv.org/abs/2401.03514v1 )

ライセンス: Link先を確認
Shilong Yuan, Wei Yuan, Tieke HE(参考訳) 言語モデルはテキスト推論や分類タスクで多くのマイルストーンを達成しているが、予期せぬ結果につながる敵の攻撃を受けやすい。 既存の作業は、言語モデルに防御パッチを装備することでこの問題を軽減する。 しかし、これらの防衛戦略は、しばしば非現実的な仮定に依存するか、モデル性能の実質的な犠牲を伴う。 したがって、そのような防御機構を用いて目標モデルのレジリエンスを高めることは、非常に難しい課題である。 本稿では,拡散モデル(ROIC-DM)に基づく,堅牢なテキスト推論と分類のための革新的なモデルを提案する。 ROIC-DMは、発達段階を含む訓練に特化しており、従来の言語モデルよりも頑健である。 さらに、ROIC-DMは、効果的にアドバイザリコンポーネントとして組み込むことで、言語モデルよりも優れたパフォーマンスを実現することができる。 その結果,(1) ROIC-DMは, 従来の言語モデルに対して, 高度な防御機構で強化された場合でも, 従来の言語モデルよりも優れた性能を発揮すること, (2) ROIC-DMは, 従来の言語モデルと同等かつ優れた性能を, アドバイザとして利用することで達成できることが示唆された。

While language models have made many milestones in text inference and classification tasks, they remain susceptible to adversarial attacks that can lead to unforeseen outcomes. Existing works alleviate this problem by equipping language models with defense patches. However, these defense strategies often rely on impractical assumptions or entail substantial sacrifices in model performance. Consequently, enhancing the resilience of the target model using such defense mechanisms is a formidable challenge. This paper introduces an innovative model for robust text inference and classification, built upon diffusion models (ROIC-DM). Benefiting from its training involving denoising stages, ROIC-DM inherently exhibits greater robustness compared to conventional language models. Moreover, ROIC-DM can attain comparable, and in some cases, superior performance to language models, by effectively incorporating them as advisory components. Extensive experiments conducted with several strong textual adversarial attacks on three datasets demonstrate that (1) ROIC-DM outperforms traditional language models in robustness, even when the latter are fortified with advanced defense mechanisms; (2) ROIC-DM can achieve comparable and even better performance than traditional language models by using them as advisors.
翻訳日:2024-01-09 18:24:53 公開日:2024-01-07
# ハイブリッド制御に基づく2量子系の実時間パラメータ推定

Real-time parameter estimation for two-qubit systems based on hybrid control ( http://arxiv.org/abs/2401.03513v1 )

ライセンス: Link先を確認
Yue Tian, Xiujuan Lu, Sen Kuang and Daoyi Dong(参考訳) 本稿では, 自発放射の存在下での2つの量子ビットからなるZZ結合系の実時間パラメータ推定問題を考察する。 結合係数の推定精度を高めるために,まず第一に量子ジャンプ検出に基づくフィードバック制御,第二にマルコフフィードバックとハミルトン制御を組み合わせたハイブリッド制御の2つの異なる制御方式を提案する。 シミュレーションの結果,自由進化と比較して,両制御スキームはパラメータ精度を改善し,システムのコヒーレンス時間を延長できることがわかった。 次に,2つの制御方式に基づいて,ベイズ推定理論に基づく実用的な単一パラメータ量子回復プロトコルを提案する。 本プロトコルでは,バッチ方式の適応測定規則を用いてパラメータ回復を行い,両制御方式の有効性を検証する。

In this paper, we consider the real-time parameter estimation problem for a ZZ-coupled system composed of two qubits in the presence of spontaneous emission. To enhance the estimation precision of the coupling coefficient, we first propose two different control schemes, where the first one is feedback control based on quantum-jump detection, and the second one is hybrid control combining Markovian feedback and Hamiltonian control. The simulation results show that compared with free evolution, both control schemes can improve parameter precision and extend system coherence time. Next, on the basis of the two control schemes, we propose a practical single-parameter quantum recovery protocol based on Bayesian estimation theory. In this protocol, by employing batch-style adaptive measurement rules, parameter recovery is conducted to verify the effectiveness of both control schemes.
翻訳日:2024-01-09 18:23:50 公開日:2024-01-07
# 知識グラフに基づくテキスト分類と注意機構の改善

Text Classification Based on Knowledge Graphs and Improved Attention Mechanism ( http://arxiv.org/abs/2401.03591v1 )

ライセンス: Link先を確認
Siyu Li, Lu Chen, Chenwei Song, Xinyi Liu(参考訳) テキストの意味曖昧さを解消するために,知識グラフと注意力向上機構を革新的に結合したモデルを提案する。 既存の知識ベースを使用して、テキストを関連するコンテキスト概念で強化する。 モデルは文字レベルと単語レベルの両方で動作し、概念を統合することで理解を深める。 まず、インフォメーションゲインをインポートワードの選択に採用する。 次に、エンコーダ-デコーダフレームワークを使用して、関連する概念とともにテキストをエンコードする。 局所注意機構は、各概念の重みを調整し、分類中の無関係または騒がしい概念の影響を低減する。 局所的自己注意機構における注意スコアの計算式を改良し、テキスト中の出現頻度の異なる単語の方が注意スコアが高いことを保証する。 最後に,テキストからの特徴抽出に有効な双方向ゲートリカレントユニットbi-gru(bi-gru)を用いて分類精度を向上させる。 その性能はAGNews、Ohsumed、TagMyNewsなどのデータセットで実証され、それぞれ75.1%、58.7%、68.5%の精度が達成され、タスクの分類の有効性を示している。

To resolve the semantic ambiguity in texts, we propose a model, which innovatively combines a knowledge graph with an improved attention mechanism. An existing knowledge base is utilized to enrich the text with relevant contextual concepts. The model operates at both character and word levels to deepen its understanding by integrating the concepts. We first adopt information gain to select import words. Then an encoder-decoder framework is used to encode the text along with the related concepts. The local attention mechanism adjusts the weight of each concept, reducing the influence of irrelevant or noisy concepts during classification. We improve the calculation formula for attention scores in the local self-attention mechanism, ensuring that words with different frequencies of occurrence in the text receive higher attention scores. Finally, the model employs a Bi-directional Gated Recurrent Unit (Bi-GRU), which is effective in feature extraction from texts for improved classification accuracy. Its performance is demonstrated on datasets such as AGNews, Ohsumed, and TagMyNews, achieving accuracy of 75.1%, 58.7%, and 68.5% respectively, showing its effectiveness in classifying tasks.
翻訳日:2024-01-09 18:17:57 公開日:2024-01-07
# 低リソース言語のための効率的かつ効果的なOpenQAシステムの構築

Building Efficient and Effective OpenQA Systems for Low-Resource Languages ( http://arxiv.org/abs/2401.03590v1 )

ライセンス: Link先を確認
Emrah Budur and R{\i}za \"Oz\c{c}elik and Dilara Soylu and Omar Khattab and Tunga G\"ung\"or and Christopher Potts(参考訳) 質問応答(QA)とは、ある節から抽出された自由形式の自然言語による自然言語による質問に答えるタスクである。 OpenQAの変種では、質問文のみが与えられ、システムは構造化されていない知識ソースから関連するパスを検索し、それを使って回答を提供する必要がある。 QAシステムは現在、英語以外の言語に大規模なラベル付きQAデータセットがないため、英語に限られている。 本稿では,低コストで効率的なOpenQAシステムを低リソース言語向けに開発できることを示す。 主な要素は,(1) 機械翻訳ラベル付きデータセットを用いた弱監督,(2) 対象言語における非構造的知識源である。 さらに,これらのシステムを確実に評価するには,数百のゴールドアセスメント例が必要である。 英語とトルコ語は類型的に非常に異なるため,本手法をトルコ語に適用することは困難な事例である。 我々は,SQuAD2.0の機械翻訳であるSQuAD-TRを提案し,トルコ語にColBERT-QAを適用してオープンQAシステムを構築した。 2年間にわたる2種類のウィキペディアダンプを用いて,BM25およびDPRベースのベースラインQAリーダモデルと比較して,EMスコアの9~34%,F1スコアの13~33%の性能向上を得た。 以上の結果から,SQuAD-TRにより,トルコ語でOpenQAが実現可能となり,研究者が他の低リソース言語でOpenQAシステムを構築することが期待できる。 すべてのコード、モデル、データセットが公開されています。

Question answering (QA) is the task of answering questions posed in natural language with free-form natural language answers extracted from a given passage. In the OpenQA variant, only a question text is given, and the system must retrieve relevant passages from an unstructured knowledge source and use them to provide answers, which is the case in the mainstream QA systems on the Web. QA systems currently are mostly limited to the English language due to the lack of large-scale labeled QA datasets in non-English languages. In this paper, we show that effective, low-cost OpenQA systems can be developed for low-resource languages. The key ingredients are (1) weak supervision using machine-translated labeled datasets and (2) a relevant unstructured knowledge source in the target language. Furthermore, we show that only a few hundred gold assessment examples are needed to reliably evaluate these systems. We apply our method to Turkish as a challenging case study, since English and Turkish are typologically very distinct. We present SQuAD-TR, a machine translation of SQuAD2.0, and we build our OpenQA system by adapting ColBERT-QA for Turkish. We obtain a performance improvement of 9-34% in the EM score and 13-33% in the F1 score compared to the BM25-based and DPR-based baseline QA reader models by using two versions of Wikipedia dumps spanning two years. Our results show that SQuAD-TR makes OpenQA feasible for Turkish, which we hope encourages researchers to build OpenQA systems in other low-resource languages. We make all the code, models, and the dataset publicly available.
翻訳日:2024-01-09 18:17:37 公開日:2024-01-07
# スマートシティにおけるビッグデータとディープラーニング:AIによる交通事故検出とコンピュータビジョンシステムのための総合データセット

Big Data and Deep Learning in Smart Cities: A Comprehensive Dataset for AI-Driven Traffic Accident Detection and Computer Vision Systems ( http://arxiv.org/abs/2401.03587v1 )

ライセンス: Link先を確認
Victor Adewopo, Nelly Elsayed, Zag Elsayed, Murat Ozer, Constantinos Zekios, Ahmed Abdelgawad, Magdy Bayoumi(参考訳) 自動車と歩行者の相互作用が生活のリズムを定義するダイナミックな都市景観では、安全性と効率性のための高度な技術の統合がますます重要になっている。 スマートシティにおける最先端技術の適用について,交通事故検出の改善による公共安全の向上に着目した。 アクション認識は映像データの解釈や人間のポーズ推定などの物体の動きの追跡において重要な役割を果たす。 行動認識の課題は、迅速な行動における可変性、限られたデータセット、および(ウェザー、イルミネーション、オクルージョン)環境要因である。 本稿では,交通事故検出のための包括的データセットを提案する。 このデータセットは、道路交通事故の予測と検出においてコンピュータビジョンと行動認識システムを強化するように設計されている。 さまざまなデータソース、道路ネットワーク、気象条件、および世界中の地域からのデータセットを統合しました。 このアプローチは、人口密度の高い地域での生活の質を高める技術について、実証的な研究によって支えられている。 本研究は,スマートシティにおける交通事故検出に適した最先端アルゴリズムを活用したベンチマークデータセットを導入することで,既存の研究ギャップを埋めることを目的とする。 これらのデータセットは学術的な研究を進め、リアルタイムの事故検出アプリケーションを強化し、スマートな都市環境の進化に大きく貢献することが期待されている。 われわれの研究は、より安全で効率的なスマートシティへの重要な一歩であり、AIと機械学習の力を利用して都市生活を変革する。

In the dynamic urban landscape, where the interplay of vehicles and pedestrians defines the rhythm of life, integrating advanced technology for safety and efficiency is increasingly crucial. This study delves into the application of cutting-edge technological methods in smart cities, focusing on enhancing public safety through improved traffic accident detection. Action recognition plays a pivotal role in interpreting visual data and tracking object motion such as human pose estimation in video sequences. The challenges of action recognition include variability in rapid actions, limited dataset, and environmental factors such as (Weather, Illumination, and Occlusions). In this paper, we present a novel comprehensive dataset for traffic accident detection. This datasets is specifically designed to bolster computer vision and action recognition systems in predicting and detecting road traffic accidents. We integrated datasets from wide variety of data sources, road networks, weather conditions, and regions across the globe. This approach is underpinned by empirical studies, aiming to contribute to the discourse on how technology can enhance the quality of life in densely populated areas. This research aims to bridge existing research gaps by introducing benchmark datasets that leverage state-of-the-art algorithms tailored for traffic accident detection in smart cities. These dataset is expected to advance academic research and also enhance real-time accident detection applications, contributing significantly to the evolution of smart urban environments. Our study marks a pivotal step towards safer, more efficient smart cities, harnessing the power of AI and machine learning to transform urban living.
翻訳日:2024-01-09 18:17:09 公開日:2024-01-07
# 可視反射:赤外レーザー反射を利用した交通信号認識

Invisible Reflections: Leveraging Infrared Laser Reflections to Target Traffic Sign Perception ( http://arxiv.org/abs/2401.03582v1 )

ライセンス: Link先を確認
Takami Sato, Sri Hrushikesh Varma Bhupathiraju, Michael Clifford, Takeshi Sugawara, Qi Alfred Chen, Sara Rampazzi(参考訳) 全ての車両は、車両が人間駆動車かコネクテッド・オートモービルズ(CAV)かに関わらず、交通行動を管理する規則に従う必要がある。 道路標識は、速度制限や利得または停止の要件など、局所的に活発な規則を示す。 最近の研究は、標識にステッカーや投影された色のパッチを加えるなど、CAVの誤解釈を引き起こし、潜在的な安全性の問題を引き起こすような攻撃を実証している。 人間はこれらの攻撃を目撃し、潜在的に防御することができる。 しかし、人間は観察できないものを検出できない。 我々は、フィルタレス画像センサの感度と、人間に見えない赤外線レーザー反射(ilrs)の特性を活用する、効果的な物理世界攻撃を開発した。 この攻撃はcavカメラと認識に影響を与えるよう設計されており、誤分類を誘発することで交通標識認識を損なう。 本研究では,ilrに基づくトラヒックサイン認識攻撃を成功させるために,脅威モデルと要求条件を定式化する。 4つの赤外線感度カメラ上での2つの主要な信号認識アーキテクチャに対する実世界実験によるIRR攻撃の有効性を評価する。 我々のブラックボックス最適化手法により、攻撃は屋内の静的シナリオで最大100%の攻撃成功率、屋外の移動車両シナリオで80.5%の攻撃成功率を達成することができる。 我々は、最新の最先端の認証された防御は、33.5%の症例を誤認するため、IRR攻撃に対して効果がないと考えている。 そこで本研究では、IRレーザー反射の物理的特性に基づいて、IRR攻撃の96%を検出できる検出戦略を提案する。

All vehicles must follow the rules that govern traffic behavior, regardless of whether the vehicles are human-driven or Connected Autonomous Vehicles (CAVs). Road signs indicate locally active rules, such as speed limits and requirements to yield or stop. Recent research has demonstrated attacks, such as adding stickers or projected colored patches to signs, that cause CAV misinterpretation, resulting in potential safety issues. Humans can see and potentially defend against these attacks. But humans can not detect what they can not observe. We have developed an effective physical-world attack that leverages the sensitivity of filterless image sensors and the properties of Infrared Laser Reflections (ILRs), which are invisible to humans. The attack is designed to affect CAV cameras and perception, undermining traffic sign recognition by inducing misclassification. In this work, we formulate the threat model and requirements for an ILR-based traffic sign perception attack to succeed. We evaluate the effectiveness of the ILR attack with real-world experiments against two major traffic sign recognition architectures on four IR-sensitive cameras. Our black-box optimization methodology allows the attack to achieve up to a 100% attack success rate in indoor, static scenarios and a >80.5% attack success rate in our outdoor, moving vehicle scenarios. We find the latest state-of-the-art certifiable defense is ineffective against ILR attacks as it mis-certifies >33.5% of cases. To address this, we propose a detection strategy based on the physical properties of IR laser reflections which can detect 96% of ILR attacks.
翻訳日:2024-01-09 18:16:44 公開日:2024-01-07
# 身体の異なるマインドフルネス改善のためのテキスト音声のユーザ知覚品質の評価とパーソナライズ

Evaluating and Personalizing User-Perceived Quality of Text-to-Speech Voices for Delivering Mindfulness Meditation with Different Physical Embodiments ( http://arxiv.org/abs/2401.03581v1 )

ライセンス: Link先を確認
Zhonghao Shi, Han Chen, Anna-Maria Velentza, Siqi Liu, Nathaniel Dennler, Allison O'Connell, and Maja Matari\'c(参考訳) マインドフルネスベースの治療法はメンタルヘルスを改善するのに有効であることが示されており、テクノロジーベースの手法はこれらの治療法のアクセシビリティを拡大する可能性がある。 これらの方法でのマインドフルネス実践のためにリアルタイムなパーソナライズされたコンテンツ生成を可能にするためには、音声による指示を提供し、ユーザのパフォーマンスや嗜好に応答するために、高品質なコンピュータ合成音声(TTS)が必要である。 しかし, 感情的表現力を必要とするマインドフルネス想起の管理には, TTS音声のユーザ認識の質がまだ評価されていない。 さらに, 身体的具体化とパーソナライゼーションが, TTS音声のユーザ知覚品質に及ぼす影響について, まだ研究されていない。 そこで我々は2段階の被験者研究をデザインした。 第1相では、オンライン・メカニカル・ターク・トゥ・サブジェクト・スタディ (n=471) が、リモート参加者と3つの異なる身体的体格設定(エージェント、会話エージェント、社会支援ロボット)で3つの(女性、男性、子供のような)最先端のtts音声を評価した。 第1相(第2相)から得られた知見をもとに,第2相(n=94)の個人内イントラジェクト調査を行い,ユーザの好みに基づくtts音声のパーソナライズと,第1相(第1相)の非パーソナライズ音声と比較したユーザ知覚品質の評価を行った。 TTS音声の感情的表現性や自然性は低いが, 利用者はTS音声の明瞭さに満足していた。 驚いたことに、ユーザがTTSの音声機能を微調整できるようにすることで、ユーザー個人化されたTTS音声は人間の声とほぼ同等の性能を発揮できる。

Mindfulness-based therapies have been shown to be effective in improving mental health, and technology-based methods have the potential to expand the accessibility of these therapies. To enable real-time personalized content generation for mindfulness practice in these methods, high-quality computer-synthesized text-to-speech (TTS) voices are needed to provide verbal guidance and respond to user performance and preferences. However, the user-perceived quality of state-of-the-art TTS voices has not yet been evaluated for administering mindfulness meditation, which requires emotional expressiveness. In addition, work has not yet been done to study the effect of physical embodiment and personalization on the user-perceived quality of TTS voices for mindfulness. To that end, we designed a two-phase human subject study. In Phase 1, an online Mechanical Turk between-subject study (N=471) evaluated 3 (feminine, masculine, child-like) state-of-the-art TTS voices with 2 (feminine, masculine) human therapists' voices in 3 different physical embodiment settings (no agent, conversational agent, socially assistive robot) with remote participants. Building on findings from Phase 1, in Phase 2, an in-person within-subject study (N=94), we used a novel framework we developed for personalizing TTS voices based on user preferences, and evaluated user-perceived quality compared to best-rated non-personalized voices from Phase 1. We found that the best-rated human voice was perceived better than all TTS voices; the emotional expressiveness and naturalness of TTS voices were poorly rated, while users were satisfied with the clarity of TTS voices. Surprisingly, by allowing users to fine-tune TTS voice features, the user-personalized TTS voices could perform almost as well as human voices, suggesting user personalization could be a simple and very effective tool to improve user-perceived quality of TTS voice.
翻訳日:2024-01-09 18:16:19 公開日:2024-01-07
# ハイパーパラメータ探索のための多目的ニュートン最適化アルゴリズム

A Multi-objective Newton Optimization Algorithm for Hyper-Parameter Search ( http://arxiv.org/abs/2401.03580v1 )

ライセンス: Link先を確認
Qinwu Xu(参考訳) 本研究では,ハイパーパラメータ探索のためのニュートン型多目的最適化アルゴリズムを提案する。 第1次微分(勾配)は有限差分法を用いて計算され、ベクトル化による勾配行列が高速に計算される。 ニュートン・ラフソン反復解は反復によるモデルパラメータの更新に使われ、特異点問題を排除するために正規化項を含む。 畳み込みニューラルネットワークの多クラス物体検出問題に対する最適な確率閾値(8パラメータのベクトル)を探索するためにアルゴリズムを適用する。 アルゴリズムは改良されたパラメータ値を見つけ出し、デフォルト値0.5の値と比較すると、全体的な高い真正(TP)と低い偽正(FP)率を生成する。 比較すると、ベイズ最適化はテストケースでの低い性能を生成する。 しかしながら、反復中にパフォーマンスとパラメータの値が振動する場合もあるが、これは主題のデータ駆動確率的性質によるものかもしれない。 したがって、最適パラメータ値は、最適TPとFPの結果に従って反復ステップのリストから特定することができる。

This study proposes a Newton based multiple objective optimization algorithm for hyperparameter search. The first order differential (gradient) is calculated using finite difference method and a gradient matrix with vectorization is formed for fast computation. The Newton Raphson iterative solution is used to update model parameters with iterations, and a regularization term is included to eliminate the singularity issue. The algorithm is applied to search the optimal probability threshold (a vector of eight parameters) for a multiclass object detection problem of a convolutional neural network. The algorithm quickly finds the improved parameter values to produce an overall higher true positive (TP) and lower false positive (FP) rates, as compared to using the default value of 0.5. In comparison, the Bayesian optimization generates lower performance in the testing case. However, the performance and parameter values may oscillate for some cases during iterations, which may be due to the data driven stochastic nature of the subject. Therefore, the optimal parameter value can be identified from a list of iteration steps according to the optimal TP and FP results.
翻訳日:2024-01-09 18:15:27 公開日:2024-01-07
# 自閉症スペクトラム障害児の視線追跡パターン分類のための畳み込み畳み込みネット

Involution Fused ConvNet for Classifying Eye-Tracking Patterns of Children with Autism Spectrum Disorder ( http://arxiv.org/abs/2401.03575v1 )

ライセンス: Link先を確認
Md. Farhadul Islam and Meem Arafat Manab and Joyanta Jyoti Mondal and Sarah Zabeen and Fardin Bin Rahman and Md. Zahidul Hasan and Farig Sadeque and Jannatun Noor(参考訳) 自閉症スペクトラム障害(ASD)は、診断が難しい複雑な神経疾患である。 自閉症と診断された子どもたちは注意力の維持と集中力の低下に苦慮している。 視線追跡技術は、視線異常が自閉症の診断的特徴として認識されて以来、ASDの文脈で特に注目を集めてきた。 深層学習(DL)アプローチと視線追跡センサーは、診断とその応用を前進させる追加の能力を活用している。 複雑な非線形入出力関係を学習することにより、DLは様々な視線と視線追跡パターンを正確に認識し、データに適応することができる。 畳み込みだけでは、視線パターンや視線追跡において重要な空間情報を捉えることができない。 インボリューションとして知られる動的カーネルベースのプロセスは、視線パターンや視線追跡データの分類効率を向上させることができる。 本稿では、2つの異なる画像処理操作を用いて、これらのプロセスがどのようにアイトラッキングパターンを学習するかを確認する。 これらのパターンは主に空間情報に基づいているため、畳み込みによる畳み込みをハイブリッドにすることで、深層学習モデルに位置特化機能を追加する。 提案手法は単純かつ効果的な手法で実装されており,実生活に適用が容易である。 本手法が眼球追跡パターンの分類に有効である理由について検討する。 比較分析のために、2つの別々のデータセットと、両方の組み合わせバージョンを実験します。 その結果, 3層のICは, 従来の手法よりも優れていた。

Autism Spectrum Disorder (ASD) is a complicated neurological condition which is challenging to diagnose. Numerous studies demonstrate that children diagnosed with autism struggle with maintaining attention spans and have less focused vision. The eye-tracking technology has drawn special attention in the context of ASD since anomalies in gaze have long been acknowledged as a defining feature of autism in general. Deep Learning (DL) approaches coupled with eye-tracking sensors are exploiting additional capabilities to advance the diagnostic and its applications. By learning intricate nonlinear input-output relations, DL can accurately recognize the various gaze and eye-tracking patterns and adjust to the data. Convolutions alone are insufficient to capture the important spatial information in gaze patterns or eye tracking. The dynamic kernel-based process known as involutions can improve the efficiency of classifying gaze patterns or eye tracking data. In this paper, we utilise two different image-processing operations to see how these processes learn eye-tracking patterns. Since these patterns are primarily based on spatial information, we use involution with convolution making it a hybrid, which adds location-specific capability to a deep learning model. Our proposed model is implemented in a simple yet effective approach, which makes it easier for applying in real life. We investigate the reasons why our approach works well for classifying eye-tracking patterns. For comparative analysis, we experiment with two separate datasets as well as a combined version of both. The results show that IC with three involution layers outperforms the previous approaches.
翻訳日:2024-01-09 18:15:13 公開日:2024-01-07
# 光乱流モデリングのための効果的なベンチマーク

Effective Benchmarks for Optical Turbulence Modeling ( http://arxiv.org/abs/2401.03573v1 )

ライセンス: Link先を確認
Christopher Jellen and Charles Nelson and Cody Brownell and John Burkhardt(参考訳) 光乱流は、特に大気境界層における通信、指向エネルギー、イメージングシステムにとって重要な課題である。 光乱流強度の効果的なモデリングは、これらのシステムの開発と展開に不可欠である。 標準的な評価ツール、特に長期データセット、モデリングタスク、メトリクス、ベースラインモデルの欠如は、アプローチとモデルの効果的な比較を妨げる。 これにより、結果の再現が容易になり、局所的な微小気候への過度な適合に寄与する。 評価指標を用いて特徴付けられる性能は、光乱流の強度を予測するためのモデルの適用性に関する洞察を与える。 しかし、これらのメトリクスはモデルの相対的な品質を理解するのに十分ではない。 我々は,光乱流強度予測モデルの厳密な開発と評価のためのpythonパッケージである \texttt{otbench} パッケージを紹介する。 このパッケージは、様々なベンチマークタスクとデータセットで光学乱流モデルを評価するための一貫したインターフェースを提供する。 texttt{otbench}パッケージには、統計モデル、データ駆動モデル、ディープラーニングモデルを含む一連のベースラインモデルが含まれており、相対モデル品質の感覚を提供する。 \texttt{otbench}は、新しいデータセット、タスク、評価メトリクスの追加もサポートする。 パッケージは \url{https://github.com/cdjellen/otbench} で入手できる。

Optical turbulence presents a significant challenge for communication, directed energy, and imaging systems, especially in the atmospheric boundary layer. Effective modeling of optical turbulence strength is critical for the development and deployment of these systems. The lack of standard evaluation tools, especially long-term data sets, modeling tasks, metrics, and baseline models, prevent effective comparisons between approaches and models. This reduces the ease of reproducing results and contributes to over-fitting on local micro-climates. Performance characterized using evaluation metrics provides some insight into the applicability of a model for predicting the strength of optical turbulence. However, these metrics are not sufficient for understanding the relative quality of a model. We introduce the \texttt{otbench} package, a Python package for rigorous development and evaluation of optical turbulence strength prediction models. The package provides a consistent interface for evaluating optical turbulence models on a variety of benchmark tasks and data sets. The \texttt{otbench} package includes a range of baseline models, including statistical, data-driven, and deep learning models, to provide a sense of relative model quality. \texttt{otbench} also provides support for adding new data sets, tasks, and evaluation metrics. The package is available at \url{https://github.com/cdjellen/otbench}.
翻訳日:2024-01-09 18:14:49 公開日:2024-01-07
# {\alpha}-HMM:RNAフォールディングのグラフィカルモデル

{\alpha}-HMM: A Graphical Model for RNA Folding ( http://arxiv.org/abs/2401.03571v1 )

ライセンス: Link先を確認
Sixiang Zhang, Aaron J. Yang, and Liming Cai(参考訳) RNA二次構造は、新しい任意の順番隠れマルコフモデル({\alpha}-HMM)でモデル化される。 {\alpha}-HMMは従来のHMMを超えて、歴史的に離れた事象の影響を受けうる確率的な事象をモデル化し、RNA二次構造を構成するヌクレオチド間の長距離正準塩基対を考慮するのに適している。 HMM上の以前の重み付き拡張とは異なり、ある事象が確率過程において他の事象にどのように影響するかの制約を適用する柔軟性があり、擬似ノットを含むRNA二次構造を効率的に予測することができる。

RNA secondary structure is modeled with the novel arbitrary-order hidden Markov model ({\alpha}-HMM). The {\alpha}-HMM extends over the traditional HMM with capability to model stochastic events that may be in influenced by historically distant ones, making it suitable to account for long-range canonical base pairings between nucleotides, which constitute the RNA secondary structure. Unlike previous heavy-weight extensions over HMM, the {\alpha}-HMM has the flexibility to apply restrictions on how one event may influence another in stochastic processes, enabling efficient prediction of RNA secondary structure including pseudoknots.
翻訳日:2024-01-09 18:14:32 公開日:2024-01-07
# エージェントAI:マルチモーダルインタラクションのホライズンを調査

Agent AI: Surveying the Horizons of Multimodal Interaction ( http://arxiv.org/abs/2401.03568v1 )

ライセンス: Link先を確認
Zane Durante, Qiuyuan Huang, Naoki Wake, Ran Gong, Jae Sung Park, Bidipta Sarkar, Rohan Taori, Yusuke Noda, Demetri Terzopoulos, Yejin Choi, Katsushi Ikeuchi, Hoi Vo, Li Fei-Fei, Jianfeng Gao(参考訳) マルチモーダルAIシステムは、私たちの日常生活においてユビキタスな存在になるだろう。 これらのシステムをよりインタラクティブにするための有望なアプローチは、物理環境と仮想環境のエージェントとして具現化することだ。 現在、システムはエンボディエージェント作成のための基本的なビルディングブロックとして既存の基礎モデルを活用している。 このような環境にエージェントを埋め込むことで、モデルが視覚的およびコンテキスト的データを処理および解釈することが可能になる。 例えば、ユーザーの行動、人間の行動、環境オブジェクト、音声表現、シーンの集団感情を知覚できるシステムは、所定の環境内でエージェント応答を通知したり、指示したりするのに使うことができる。 エージェントベースのマルチモーダルインテリジェンスの研究を加速するために、視覚刺激、言語入力、その他の環境に接するデータを知覚し、無限エージェントで有意義な具体的アクションを生成できる対話型システムとして「エージェントAI」を定義した。 特に,外的知識,多感覚入力,人的フィードバックを組み込んだ次世代行動予測に基づくエージェント改善を目的としたシステムについて検討する。 我々は,接地環境におけるエージェント型aiシステムの開発により,大規模基礎モデルの幻覚と環境的不正確なアウトプットの生成傾向を緩和できると主張している。 agent aiの新たな分野は、マルチモーダルインタラクションのより広範な具体化とエージェント的側面を消費する。 物理的な世界で行動し、相互作用するエージェント以外にも、バーチャルリアリティやシミュレートされたシーンを簡単に作成し、仮想環境に埋め込まれたエージェントと対話できる未来を想像する。

Multi-modal AI systems will likely become a ubiquitous presence in our everyday lives. A promising approach to making these systems more interactive is to embody them as agents within physical and virtual environments. At present, systems leverage existing foundation models as the basic building blocks for the creation of embodied agents. Embedding agents within such environments facilitates the ability of models to process and interpret visual and contextual data, which is critical for the creation of more sophisticated and context-aware AI systems. For example, a system that can perceive user actions, human behavior, environmental objects, audio expressions, and the collective sentiment of a scene can be used to inform and direct agent responses within the given environment. To accelerate research on agent-based multimodal intelligence, we define "Agent AI" as a class of interactive systems that can perceive visual stimuli, language inputs, and other environmentally-grounded data, and can produce meaningful embodied action with infinite agent. In particular, we explore systems that aim to improve agents based on next-embodied action prediction by incorporating external knowledge, multi-sensory inputs, and human feedback. We argue that by developing agentic AI systems in grounded environments, one can also mitigate the hallucinations of large foundation models and their tendency to generate environmentally incorrect outputs. The emerging field of Agent AI subsumes the broader embodied and agentic aspects of multimodal interactions. Beyond agents acting and interacting in the physical world, we envision a future where people can easily create any virtual reality or simulated scene and interact with agents embodied within the virtual environment.
翻訳日:2024-01-09 18:14:20 公開日:2024-01-07
# Data-CUBE:インストラクションに基づく文表現学習のためのデータカリキュラム

Data-CUBE: Data Curriculum for Instruction-based Sentence Representation Learning ( http://arxiv.org/abs/2401.03563v1 )

ライセンス: Link先を確認
Yingqian Min, Kun Zhou, Dawei Gao, Wayne Xin Zhao, He Hu, and Yaliang Li(参考訳) 近年、文表現学習にマルチタスク命令チューニングが適用され、タスク命令の指導により特定の表現を生成する能力を内在させ、新しいタスクに強い一般化能力を示す。 しかし、これらの手法は様々なタスクやインスタンスにわたる潜在的な干渉問題をほとんど無視し、モデルのトレーニングと収束に影響を与える可能性がある。 そこで本研究では,学習用マルチタスクデータの順序を整理したデータカリキュラムであるData-CUBEを提案し,この2つの視点からの干渉リスクを最小限に抑える。 タスクレベルでは,トラベリングセールスマン問題であるクロスタスク干渉リスクの総量を最小限に抑えるために最適なタスクオーダーを見つけることを目的としており,シミュレートされたアニーリングアルゴリズムを用いてその解を求める。 インスタンスレベルでは、タスク毎のインスタンスの難易度を計測し、トレーニングのための簡単で難易度の高いミニバッチに分割します。 MTEB文表現評価タスクの実験は,本手法が最先端手法の性能を向上させることを示す。 コードとデータはリンクで公開されている。 \url{https://github.com/RUCAIBox/Data-CUBE}。

Recently, multi-task instruction tuning has been applied into sentence representation learning, which endows the capability of generating specific representations with the guidance of task instruction, exhibiting strong generalization ability on new tasks. However, these methods mostly neglect the potential interference problems across different tasks and instances, which may affect the training and convergence of the model. To address it, we propose a data curriculum method, namely Data-CUBE, that arranges the orders of all the multi-task data for training, to minimize the interference risks from the two views. In the task level, we aim to find the optimal task order to minimize the total cross-task interference risk, which is exactly the traveling salesman problem, hence we utilize a simulated annealing algorithm to find its solution. In the instance level, we measure the difficulty of all instances per task, then divide them into the easy-to-difficult mini-batches for training. Experiments on MTEB sentence representation evaluation tasks show that our approach can boost the performance of state-of-the-art methods. Our code and data are publicly available at the link: \url{https://github.com/RUCAIBox/Data-CUBE}.
翻訳日:2024-01-09 18:13:51 公開日:2024-01-07
# GLOCALFAIR:フェデレートラーニングにおけるグローバルとローカルのグループフェアネスを共同で改善

GLOCALFAIR: Jointly Improving Global and Local Group Fairness in Federated Learning ( http://arxiv.org/abs/2401.03562v1 )

ライセンス: Link先を確認
Syed Irfan Ali Meerza, Luyang Liu, Jiaxin Zhang, Jian Liu(参考訳) フェデレーション学習(federated learning, fl)は、データプライバシを犠牲にすることなく、クライアント間で共有モデルを共同学習するための有望なソリューションとして登場した。 しかしながら、フェデレーション学習モデルは、データの不均一性や政党の選択といった固有のfl特性のために、特定の集団グループ(例えば、人種や性別グループ)に対して偏りがちである。 集中学習とは異なり、FLのバイアス軽減は、プライベートトレーニングデータセットとその機密属性が直接アクセスできないため、特に困難である。 この分野でのほとんどの先行研究は、個々のクライアントのローカルな公平性を見落としながら、グローバルな公平性のみに焦点を当てている。 さらに、既存のメソッドは、しばしば、クライアントのローカルデータセットに関する機密情報を共有する必要があるが、これは望ましくない。 これらの問題に対処するために,クライアントのプライベートデータセットに関する詳細な統計を必要とせずに,FLにおけるグローバルおよびローカルグループフェアネスを共同で改善するクライアントサーバ共同設計フレームワークであるGLOCALFAIRを提案する。 具体的には、制約付き最適化を利用してクライアント側での局所的公平性を強制し、サーバ上でフェアネス対応のクラスタリングベースのアグリゲーションを適用し、高いユーティリティを維持しながら、異なる機密グループ間のグローバルモデル公平性をさらに確保します。 2つの画像データセットと1つの表型データセットに関する実験により、glocalfairは、優れた実用性とクライアントの公平性を維持しつつ、グローバルおよびローカル両方のデータ分散の下で、拡張された公平性を達成できることが示された。

Federated learning (FL) has emerged as a prospective solution for collaboratively learning a shared model across clients without sacrificing their data privacy. However, the federated learned model tends to be biased against certain demographic groups (e.g., racial and gender groups) due to the inherent FL properties, such as data heterogeneity and party selection. Unlike centralized learning, mitigating bias in FL is particularly challenging as private training datasets and their sensitive attributes are typically not directly accessible. Most prior research in this field only focuses on global fairness while overlooking the local fairness of individual clients. Moreover, existing methods often require sensitive information about the client's local datasets to be shared, which is not desirable. To address these issues, we propose GLOCALFAIR, a client-server co-design fairness framework that can jointly improve global and local group fairness in FL without the need for sensitive statistics about the client's private datasets. Specifically, we utilize constrained optimization to enforce local fairness on the client side and adopt a fairness-aware clustering-based aggregation on the server to further ensure the global model fairness across different sensitive groups while maintaining high utility. Experiments on two image datasets and one tabular dataset with various state-of-the-art fairness baselines show that GLOCALFAIR can achieve enhanced fairness under both global and local data distributions while maintaining a good level of utility and client fairness.
翻訳日:2024-01-09 18:13:32 公開日:2024-01-07
# フェデレーション学習におけるネットワーク侵入検出の伝達性の向上

Improving Transferability of Network Intrusion Detection in a Federated Learning Setup ( http://arxiv.org/abs/2401.03560v1 )

ライセンス: Link先を確認
Shreya Ghosh, Abu Shafin Mohammad Mahdee Jameel and Aly El Gamal(参考訳) ネットワーク侵入検知システム(IDS)は、インターネットに接続されたデバイスに到着するネットワークパケットを分析し、侵入者の存在を検出することを目的としている。 データ駆動型ディープラーニングシステムは、従来のIDSに比べて優れたパフォーマンスで人気があり、様々な侵入クラスのための高品質なトレーニングデータの提供に依存している。 この制限を克服する方法は、移行可能な学習を通じて、ひとつの侵入クラスのトレーニングが、デプロイ後に目に見えない侵入クラスの検出につながる可能性がある。 本稿では,侵入検知の移動性に関する詳細な研究を行う。 本研究では,侵入検知の伝達性を高めるために,実用的なフェデレーション学習構成について検討する。 本研究では,連系侵入検知システムの伝達性を大幅に向上させる2つの手法を提案する。 この作業のコードはhttps://github.com/ghosh64/transferabilityにある。

Network Intrusion Detection Systems (IDS) aim to detect the presence of an intruder by analyzing network packets arriving at an internet connected device. Data-driven deep learning systems, popular due to their superior performance compared to traditional IDS, depend on availability of high quality training data for diverse intrusion classes. A way to overcome this limitation is through transferable learning, where training for one intrusion class can lead to detection of unseen intrusion classes after deployment. In this paper, we provide a detailed study on the transferability of intrusion detection. We investigate practical federated learning configurations to enhance the transferability of intrusion detection. We propose two techniques to significantly improve the transferability of a federated intrusion detection system. The code for this work can be found at https://github.com/ghosh64/transferability.
翻訳日:2024-01-09 18:13:01 公開日:2024-01-07
# ブロックチェーンベース連合学習システムにおけるプライバシ保護

Privacy-Preserving in Blockchain-based Federated Learning Systems ( http://arxiv.org/abs/2401.03552v1 )

ライセンス: Link先を確認
Sameera K. M., Serena Nicolazzo, Marco Arazzi, Antonino Nocera, Rafidha Rehiman K. A., Vinod P and Mauro Conti(参考訳) フェデレートラーニング(FL)は、機械学習モデルの協調トレーニングにおける革命的なアプローチとして最近登場した。 このフレームワークによれば、複数の参加者がグローバルモデルを共同でトレーニングし、ローカルデータを共有せずに中央アグリゲータと協調する。 flがさまざまなドメインで人気を博すにつれて、このソリューションの分散性によって、セキュリティやプライバシの懸念が生まれます。 したがって、この戦略とブロックチェーン技術を統合することは、参加者のプライバシーとセキュリティを確保するための選択として統合されている。 本稿では,Blockchain-Enabled FLを採用するシナリオにおいて,プライバシソリューションを定義するために科学コミュニティが実施した研究成果について考察する。 flとブロックチェーンに関する背景を包括的に要約し、その統合のために既存のアーキテクチャを評価し、この設定におけるプライバシを保証するための主要な攻撃と対策の可能性を評価する。 最後に、Blockchain-Enabled FLアプローチが十分に適用された主なアプリケーションシナリオについてレビューする。 この調査は、Blockchainを通じてFLのパフォーマンスを改善し、プライバシを維持するための理論と技術が存在するか、そしてこの新奇で未調査の文脈における主要な課題と今後の方向性について、学者や業界の実践者が理解するのに役立ちます。 この研究は、以前の調査に対する新たなコントリビューションを提供し、現在の状況を探求し、視点を理解し、ブロックチェーンとフェデレートラーニングの融合における進歩や改善の道を開くための貴重なツールであると考えています。

Federated Learning (FL) has recently arisen as a revolutionary approach to collaborative training Machine Learning models. According to this novel framework, multiple participants train a global model collaboratively, coordinating with a central aggregator without sharing their local data. As FL gains popularity in diverse domains, security, and privacy concerns arise due to the distributed nature of this solution. Therefore, integrating this strategy with Blockchain technology has been consolidated as a preferred choice to ensure the privacy and security of participants. This paper explores the research efforts carried out by the scientific community to define privacy solutions in scenarios adopting Blockchain-Enabled FL. It comprehensively summarizes the background related to FL and Blockchain, evaluates existing architectures for their integration, and the primary attacks and possible countermeasures to guarantee privacy in this setting. Finally, it reviews the main application scenarios where Blockchain-Enabled FL approaches have been proficiently applied. This survey can help academia and industry practitioners understand which theories and techniques exist to improve the performance of FL through Blockchain to preserve privacy and which are the main challenges and future directions in this novel and still under-explored context. We believe this work provides a novel contribution respect to the previous surveys and is a valuable tool to explore the current landscape, understand perspectives, and pave the way for advancements or improvements in this amalgamation of Blockchain and Federated Learning.
翻訳日:2024-01-09 18:12:49 公開日:2024-01-07
# CAPTAIN at COLIEE 2023: 法律情報検索と細部業務の効率的な方法

CAPTAIN at COLIEE 2023: Efficient Methods for Legal Information Retrieval and Entailment Tasks ( http://arxiv.org/abs/2401.03551v1 )

ライセンス: Link先を確認
Chau Nguyen, Phuong Nguyen, Thanh Tran, Dat Nguyen, An Trieu, Tin Pham, Anh Dang, Le-Minh Nguyen(参考訳) 毎年、法律文書の自動処理の進歩を促進するために、法律情報抽出・販売競争(COLIEE)が開催されている。 法律文書の処理は、法律言語の複雑な構造と意味のために困難である。 本稿では,COLIEE 2023コンペティションにおけるタスク2,タスク3,タスク4の対応戦略について概説する。 提案手法は,最先端のディープラーニング手法の活用,ドメイン特性の観察に基づく手法の設計,厳密なエンジニアリングプラクティスと方法論を競争に適用することであった。 その結果、タスク2とタスク3に第1位、タスク4に第4位が期待できる結果となり、これらのタスクのパフォーマンスは傑出したものとなった。 ソースコードはhttps://github.com/Nguyen2015/CAPTAIN-COLIEE2023/tree/coliee2023で公開されています。

The Competition on Legal Information Extraction/Entailment (COLIEE) is held annually to encourage advancements in the automatic processing of legal texts. Processing legal documents is challenging due to the intricate structure and meaning of legal language. In this paper, we outline our strategies for tackling Task 2, Task 3, and Task 4 in the COLIEE 2023 competition. Our approach involved utilizing appropriate state-of-the-art deep learning methods, designing methods based on domain characteristics observation, and applying meticulous engineering practices and methodologies to the competition. As a result, our performance in these tasks has been outstanding, with first places in Task 2 and Task 3, and promising results in Task 4. Our source code is available at https://github.com/Nguyen2015/CAPTAIN-COLIEE2023/tree/coliee2023.
翻訳日:2024-01-09 18:12:26 公開日:2024-01-07
# モダリティが不均衡な非IIDデータセットを用いた癌ステージングのためのマルチモーダルフェデレーション学習

Multi-Modal Federated Learning for Cancer Staging over Non-IID Datasets with Unbalanced Modalities ( http://arxiv.org/abs/2401.03609v1 )

ライセンス: Link先を確認
Kasra Borazjani and Naji Khosravan and Leslie Ying and Seyyedali Hosseinalipour(参考訳) 医療画像解析によるがんステージングにおける機械学習(ML)の利用は、医学分野において大きな関心を集めている。 革新的フェデレーション学習(FL)フレームワークを伴って、ML技術は患者のデータ露出に関するプライバシー上の懸念をさらに克服することができる。 患者記録に多様なデータモダリティが頻繁に存在することから、マルチモーダル学習フレームワークにおけるflの活用は、がんの進行にかなりの期待を持っている。 しかし、既存のマルチモーダルFLに関する研究は、全てのデータ収集機関が全てのデータモダリティにアクセスできることを前提にしている。 この単純化されたアプローチは、システム内のデータモダリティの一部のみにアクセスする機関を無視する。 本稿では,データサンプルの多様性だけでなく,組織間のデータモダリティの固有不均一性・非均一性も考慮した新しいflアーキテクチャを提案する。 flシステム内の異なるデータモダリティにまたがって観測される収束速度の変化に伴う課題について考察した。 次に,マルチモーダルFLに適した分散勾配混合および近接対応クライアント重み付け戦略を考案することにより,これらの課題に対処するソリューションを提案する。 本手法の優位性を示すため,癌ゲノムアトラスプログラム(TCGA)を用いて,mRNA配列,病理組織像データ,臨床情報という,異なるがんの種類とデータの3つのモーダル性を考慮した実験を行った。

The use of machine learning (ML) for cancer staging through medical image analysis has gained substantial interest across medical disciplines. When accompanied by the innovative federated learning (FL) framework, ML techniques can further overcome privacy concerns related to patient data exposure. Given the frequent presence of diverse data modalities within patient records, leveraging FL in a multi-modal learning framework holds considerable promise for cancer staging. However, existing works on multi-modal FL often presume that all data-collecting institutions have access to all data modalities. This oversimplified approach neglects institutions that have access to only a portion of data modalities within the system. In this work, we introduce a novel FL architecture designed to accommodate not only the heterogeneity of data samples, but also the inherent heterogeneity/non-uniformity of data modalities across institutions. We shed light on the challenges associated with varying convergence speeds observed across different data modalities within our FL system. Subsequently, we propose a solution to tackle these challenges by devising a distributed gradient blending and proximity-aware client weighting strategy tailored for multi-modal FL. To show the superiority of our method, we conduct experiments using The Cancer Genome Atlas program (TCGA) datalake considering different cancer types and three modalities of data: mRNA sequences, histopathological image data, and clinical information.
翻訳日:2024-01-09 18:02:59 公開日:2024-01-07
# 会話レコメンデーションのためのチャットgpt: フィードバックによるレコメンデーションの改善

ChatGPT for Conversational Recommendation: Refining Recommendations by Reprompting with Feedback ( http://arxiv.org/abs/2401.03605v1 )

ライセンス: Link先を確認
Kyle Dylan Spurlock, Cagla Acun, Esin Saka and Olfa Nasraoui(参考訳) 勧告アルゴリズムは、オンラインコンテンツの圧倒的な量の処理において重要な役割を担っている。 しかし、これらのアルゴリズムは直接ユーザ入力をほとんど考慮せず、表面的な相互作用をもたらす。 会話を通じてユーザーを直接推薦プロセスに含めるように努力されてきたが、これらのシステムも対話性に制限があった。 近年、ChatGPTのようなLarge Language Models (LLM) は、使いやすさと、フィードバックに反応しながら様々なタスクに動的に適応する能力によって人気を集めている。 本稿では,トップn会話レコメンデーションシステムとしてのChatGPTの有効性を検討する。 ChatGPTの周りに厳格なパイプラインを構築して、ユーザがレコメンデーションのためにモデルを現実的に調査する方法をシミュレートします。 chatgptの推奨事項における人気バイアスの影響をさらに探り、そのパフォーマンスをベースラインモデルと比較する。 フィードバックでChatGPTをリプロンプトすることはレコメンデーション関連性を改善する効果的な戦略であり、迅速なエンジニアリングによって人気バイアスを軽減することができる。

Recommendation algorithms have been pivotal in handling the overwhelming volume of online content. However, these algorithms seldom consider direct user input, resulting in superficial interaction between them. Efforts have been made to include the user directly in the recommendation process through conversation, but these systems too have had limited interactivity. Recently, Large Language Models (LLMs) like ChatGPT have gained popularity due to their ease of use and their ability to adapt dynamically to various tasks while responding to feedback. In this paper, we investigate the effectiveness of ChatGPT as a top-n conversational recommendation system. We build a rigorous pipeline around ChatGPT to simulate how a user might realistically probe the model for recommendations: by first instructing and then reprompting with feedback to refine a set of recommendations. We further explore the effect of popularity bias in ChatGPT's recommendations, and compare its performance to baseline models. We find that reprompting ChatGPT with feedback is an effective strategy to improve recommendation relevancy, and that popularity bias can be mitigated through prompt engineering.
翻訳日:2024-01-09 18:02:34 公開日:2024-01-07
# Amirkabirキャンパスデータセット:視覚障害者のための視覚慣性オドメトリー(VIO)の現実的課題とシナリオ

Amirkabir campus dataset: Real-world challenges and scenarios of Visual Inertial Odometry (VIO) for visually impaired people ( http://arxiv.org/abs/2401.03604v1 )

ライセンス: Link先を確認
Ali Samadzadeh, Mohammad Hassan Mojab, Heydar Soudani, Seyed Hesamoddin Mireshghollah, Ahmad Nickabadi(参考訳) 視覚慣性オドメトリー(VIO)アルゴリズムは、カメラと慣性計測ユニット(IMU)センサーを用いて正確なカメラ軌道を推定する。 VIOの応用範囲は拡張現実や屋内ナビゲーションなど多岐にわたる。 VIOアルゴリズムは、屋内と屋外の両方で視覚障害者のナビゲーションを容易にする可能性を秘めている。 それにもかかわらず、最先端のvioアルゴリズムは動的環境、特に密集した回廊においてかなりの困難に直面する。 既存のVIOデータセット、例えばADVIOは、これらの課題を効果的に活用できない。 本稿では,上記の問題に対処し,ナビゲーションシステムを改善するために,amirkabir campus dataset (aut-vi)を提案する。 AUT-VIは17の異なる場所で126の異なる配列を持つ、新しくて超混成的なデータセットである。 このデータセットには、動的オブジェクト、ループクロージャ/マップリユースへの挑戦、異なる照明条件、反射、そして極端なナビゲーションシナリオをカバーするために突然のカメラの動きが含まれる。 さらに、現在進行中の開発努力のサポートとして、データキャプチャ用のandroidアプリケーションをリリースしました。 これにより、同僚の研究者たちは、カスタマイズされたVIOデータセットのバリエーションを簡単にキャプチャできる。 さらに、この困難なデータセットの必要性を強調し、データ集合における最先端の視覚慣性オドメトリ(vio)と視覚オドメトリ(vo)メソッドを評価した。

Visual Inertial Odometry (VIO) algorithms estimate the accurate camera trajectory by using camera and Inertial Measurement Unit (IMU) sensors. The applications of VIO span a diverse range, including augmented reality and indoor navigation. VIO algorithms hold the potential to facilitate navigation for visually impaired individuals in both indoor and outdoor settings. Nevertheless, state-of-the-art VIO algorithms encounter substantial challenges in dynamic environments, particularly in densely populated corridors. Existing VIO datasets, e.g., ADVIO, typically fail to effectively exploit these challenges. In this paper, we introduce the Amirkabir campus dataset (AUT-VI) to address the mentioned problem and improve the navigation systems. AUT-VI is a novel and super-challenging dataset with 126 diverse sequences in 17 different locations. This dataset contains dynamic objects, challenging loop-closure/map-reuse, different lighting conditions, reflections, and sudden camera movements to cover all extreme navigation scenarios. Moreover, in support of ongoing development efforts, we have released the Android application for data capture to the public. This allows fellow researchers to easily capture their customized VIO dataset variations. In addition, we evaluate state-of-the-art Visual Inertial Odometry (VIO) and Visual Odometry (VO) methods on our dataset, emphasizing the essential need for this challenging dataset.
翻訳日:2024-01-09 18:02:14 公開日:2024-01-07
# 位相の異なる一般化世帯反射に基づくグローバーアルゴリズムの異なる修正のロバスト性

Robustness of different modifications of Grovers algorithm based on generalized Householder reflections with different phases ( http://arxiv.org/abs/2401.03602v1 )

ライセンス: Link先を確認
Hristo Tonchev, Petar Danev(参考訳) 本研究では,5つのGroversアルゴリズムの修正について検討し,各イテレーションは2つの一般化されたハウスリフレクションによって構成される。 半経験的手法を用いて,解を見つける確率と位相誤差との依存性の様々な特性について検討する。 まず第一に、位相における誤差の確率の堅牢性である。 2つ目は、確率が安定性の間隔を超える速さである。 そして最後に、パラメータが非常に頑健な間隔の範囲にある場合のアルゴリズムの平均成功率について述べる。 2つの修正では各イテレーションごとに同じGrover演算子を使用し、残りの3つが異なる。 これらの半経験的手法は、量子アルゴリズムの全体的な振る舞いを予測し、さらに大きなレジスタサイズで比較するツールを提供する。

In this work we study five Grovers algorithm modifications, where each iteration is constructed by two generalized Householder reflections, against inaccuracies in the phases. By using semi-empirical methods, we investigate various characteristics of the dependence between the probability to find solution and the phase errors. The first of them is the robustness of the probability to errors in the phase. The second one is how quickly the probability falls beyond the stability interval. And finally, the average success rate of the algorithm when the parameters are in the range of the highly robust interval. Two of the modifications require usage of the same Grover operator each iteration and in the other three it differs. Those semi-empirical methods give us the, tool to make prediction of the quantum algorithm modifications overall behavior and compare them for even larger register size
翻訳日:2024-01-09 18:01:50 公開日:2024-01-07
# InFoBench: 大規模言語モデルの能力によるインストラクションの評価

InFoBench: Evaluating Instruction Following Ability in Large Language Models ( http://arxiv.org/abs/2401.03601v1 )

ライセンス: Link先を確認
Yiwei Qin, Kaiqiang Song, Yebowen Hu, Wenlin Yao, Sangwoo Cho, Xiaoyang Wang, Xuansheng Wu, Fei Liu, Pengfei Liu, Dong Yu(参考訳) 本稿では,Large Language Models(LLM)の指示に従う能力を評価するための新しい指標であるDRFR(Decomposed Requirements following Ratio)を紹介する。 現在の方法論のギャップに対処するため、DRFRは複雑な命令をより単純な基準に分解し、LCMのタスクの様々な側面へのコンプライアンスを詳細に分析する。 InFoBenchは500の多様な命令と2,250の分解された質問を複数の制約カテゴリに分けたベンチマークである。 実験では,DRFRと従来のスコアリング手法を比較し,人的専門家,クラウドソースワーカー,GPT-4などのアノテーション源を探索した。 その結果,DRFRの信頼性が高く,GPT-4を低コストアノテータとして用いる効果が示された。 このフレームワークによるいくつかの高度なLCMの評価は、特に複雑な命令追従において、その強みと改善が必要な領域を明らかにしている。 本研究は,将来のLCM開発と評価のための洞察を提供する,新しいメトリクスとベンチマークを提供する。

This paper introduces the Decomposed Requirements Following Ratio (DRFR), a new metric for evaluating Large Language Models' (LLMs) ability to follow instructions. Addressing a gap in current methodologies, DRFR breaks down complex instructions into simpler criteria, facilitating a detailed analysis of LLMs' compliance with various aspects of tasks. Alongside this metric, we present InFoBench, a benchmark comprising 500 diverse instructions and 2,250 decomposed questions across multiple constraint categories. Our experiments compare DRFR with traditional scoring methods and explore annotation sources, including human experts, crowd-sourced workers, and GPT-4. The findings demonstrate DRFR's higher reliability and the effectiveness of using GPT-4 as a cost-efficient annotator. The evaluation of several advanced LLMs using this framework reveals their strengths and areas needing improvement, particularly in complex instruction-following. This study contributes a novel metric and benchmark, offering insights for future LLM development and evaluation.
翻訳日:2024-01-09 18:01:36 公開日:2024-01-07
# 解釈可能な動き予測のための遠方性ニューラルリレーショナル推論

Disentangled Neural Relational Inference for Interpretable Motion Prediction ( http://arxiv.org/abs/2401.03599v1 )

ライセンス: Link先を確認
Victoria M. Dax, Jiachen Li, Enna Sachdeva, Nakul Agarwal, and Mykel J. Kochenderfer(参考訳) 動的エージェントの効果的な相互作用モデリングと行動予測は自律ロボットのインタラクティブな動作計画において重要な役割を果たす。 既存の手法では予測精度は向上しているが、予測モデルの解釈可能性と分散性(ood)の一般化性を高める研究は少ない。 本研究は,対話エージェント間の時空間関係を効率的に捉え,そのダイナミクスを予測するために,グラフに基づく表現と時間系列モデルを統合する変分オートエンコーダフレームワークを設計することで,これら2つの課題を解決する。 我々のモデルは、相互作用を特徴づける解釈可能なエッジ特徴を付加した潜在空間における動的相互作用グラフを推定する。 さらに,エッジ特徴の潜在空間を曖昧にすることで,OODシナリオにおけるモデルの解釈可能性や性能を向上させることを目的としている。 シミュレーションデータセットと実世界のデータセットの両方で広範な実験を行い、このアプローチを検証する。 その結果,時空間関係,動き予測,時間不変潜在特徴の同定において,既存の手法と比較して優れた性能を示した。

Effective interaction modeling and behavior prediction of dynamic agents play a significant role in interactive motion planning for autonomous robots. Although existing methods have improved prediction accuracy, few research efforts have been devoted to enhancing prediction model interpretability and out-of-distribution (OOD) generalizability. This work addresses these two challenging aspects by designing a variational auto-encoder framework that integrates graph-based representations and time-sequence models to efficiently capture spatio-temporal relations between interactive agents and predict their dynamics. Our model infers dynamic interaction graphs in a latent space augmented with interpretable edge features that characterize the interactions. Moreover, we aim to enhance model interpretability and performance in OOD scenarios by disentangling the latent space of edge features, thereby strengthening model versatility and robustness. We validate our approach through extensive experiments on both simulated and real-world datasets. The results show superior performance compared to existing methods in modeling spatio-temporal relations, motion prediction, and identifying time-invariant latent features.
翻訳日:2024-01-09 18:01:20 公開日:2024-01-07
# 不均一グラフ上の分布外一般化のためのFew-Shot Causal Representation Learning

Few-Shot Causal Representation Learning for Out-of-Distribution Generalization on Heterogeneous Graphs ( http://arxiv.org/abs/2401.03597v1 )

ライセンス: Link先を確認
Pengfei Ding and Yan Wang and Guanfeng Liu and Nan Wang(参考訳) Heterogeneous graph few-shot Learning (HGFL) は、様々な種類のノードとエッジから構成されるヘテロジニアスグラフ(HG)のラベル空間問題に対処するために開発された。 HGFLの中核的な概念は、ソースHGのリッチラベルされたクラスから知識を抽出し、この知識をターゲットHGに転送して、少数のラベル付きトレーニングデータで新しいクラスを学習し、最終的にラベル付きテストデータで予測することである。 既存の手法では、ソースHG、トレーニングデータ、テストデータがすべて同じ分布を共有していると仮定する。 しかし、実際には、(1)対象のHG分布と一致するソースHGの限られた可用性、(2)対象のHGの予測不能なデータ生成機構の2つの理由により、これらの3種類のデータ間の分散シフトは避けられない。 このような分布シフトは,既存の手法では非効率な知識伝達と学習性能の低下をもたらすため,HGFLにおけるアウト・オブ・ディストリビューション(OOD)の一般化という新たな問題に繋がる。 この課題に対処するため、我々はCausal OOD Heterogeneous graph Few-shot Learning Model、すなわちCOHFを提案する。 COHFでは、構造因果モデルを用いてHGの分布シフトを初めて特徴づけ、HGFLにおけるOOD一般化の不変原理を確立する。 次に,この不変性原理に従い,分散シフトの影響を軽減するために,変分オートエンコーダに基づく不均一グラフニューラルネットワークを提案する。 最後に、このネットワークを新しいメタ学習フレームワークに統合することにより、COHFはターゲットHGに知識を効果的に伝達し、ラベルの少ないデータで新しいクラスを予測する。 7つの実世界のデータセットに対する大規模な実験は、最先端の手法よりもCOHFの優れた性能を示している。

Heterogeneous graph few-shot learning (HGFL) has been developed to address the label sparsity issue in heterogeneous graphs (HGs), which consist of various types of nodes and edges. The core concept of HGFL is to extract knowledge from rich-labeled classes in a source HG, transfer this knowledge to a target HG to facilitate learning new classes with few-labeled training data, and finally make predictions on unlabeled testing data. Existing methods typically assume that the source HG, training data, and testing data all share the same distribution. However, in practice, distribution shifts among these three types of data are inevitable due to two reasons: (1) the limited availability of the source HG that matches the target HG distribution, and (2) the unpredictable data generation mechanism of the target HG. Such distribution shifts result in ineffective knowledge transfer and poor learning performance in existing methods, thereby leading to a novel problem of out-of-distribution (OOD) generalization in HGFL. To address this challenging problem, we propose a novel Causal OOD Heterogeneous graph Few-shot learning model, namely COHF. In COHF, we first characterize distribution shifts in HGs with a structural causal model, establishing an invariance principle for OOD generalization in HGFL. Then, following this invariance principle, we propose a new variational autoencoder-based heterogeneous graph neural network to mitigate the impact of distribution shifts. Finally, by integrating this network with a novel meta-learning framework, COHF effectively transfers knowledge to the target HG to predict new classes with few-labeled data. Extensive experiments on seven real-world datasets have demonstrated the superior performance of COHF over the state-of-the-art methods.
翻訳日:2024-01-09 18:01:02 公開日:2024-01-07
# 分布強化学習における解釈パラメータ調整によるロバスト量子ハマーの損失

A Robust Quantile Huber Loss With Interpretable Parameter Adjustment In Distributional Reinforcement Learning ( http://arxiv.org/abs/2401.02325v2 )

ライセンス: Link先を確認
Parvin Malekzadeh, Konstantinos N. Plataniotis, Zissis Poulos, Zeyu Wang(参考訳) 分布強化学習(英語版) (rl) は、主に量子量的フーバー損失関数を最小化し、しばしばヒューリスティックに選択されるしきい値パラメータやハイパーパラメータ探索を伴って量子量的値を学習することで、帰納分布を推定する。 本稿では、ガウス分布間のワッサーシュタイン距離(WD)計算から導かれる一般化量子ハマー損失関数を導入し、予測(電流)と目標(ベルマン更新)量子化値のノイズを捕捉する。 古典的な量子ハマー損失と比較して、この革新的な損失関数は外れ値に対する堅牢性を高める。 特に、古典的なハマー損失関数は、提案した損失の近似と見なすことができ、学習過程におけるデータのノイズ量の近似によるパラメータ調整を可能にする。 分散RLの一般的な応用であるアタリゲームに対する実証実験と、分布RLを用いた最近のヘッジ戦略により、提案した損失関数の有効性と分布RLにおけるパラメータ調整の可能性を検証する。 提案する損失関数の実装はここで見ることができる。

Distributional Reinforcement Learning (RL) estimates return distribution mainly by learning quantile values via minimizing the quantile Huber loss function, entailing a threshold parameter often selected heuristically or via hyperparameter search, which may not generalize well and can be suboptimal. This paper introduces a generalized quantile Huber loss function derived from Wasserstein distance (WD) calculation between Gaussian distributions, capturing noise in predicted (current) and target (Bellman-updated) quantile values. Compared to the classical quantile Huber loss, this innovative loss function enhances robustness against outliers. Notably, the classical Huber loss function can be seen as an approximation of our proposed loss, enabling parameter adjustment by approximating the amount of noise in the data during the learning process. Empirical tests on Atari games, a common application in distributional RL, and a recent hedging strategy using distributional RL, validate the effectiveness of our proposed loss function and its potential for parameter adjustments in distributional RL. The implementation of the proposed loss function is available here.
翻訳日:2024-01-09 11:29:27 公開日:2024-01-07